演化博弈与GAN网络

0.摘要

人们早已注意到,在重复博弈中的策略均衡结局与一次性博弈中的个体理性结局有很大差别。也就是说,博弈中的最优策略会随着次数的增加而不断演变。在有限轮博弈中,厂商无法完成合作,而如果博弈的次数是无限的,厂商就可以以合作的方式摆脱困境。同时,受行为经济学的启发,博弈理论也逐渐摒弃理性人假说。在这种新的假设下,参与人既不是是完全理性的,也不要求完全信息的约束,只需假定参加者能够积累关于各种策略被采用时的相对优势的经验信息,纳什均衡仍可达到,亦即演化博弈。
演化博弈在自然选择和经济学中很好地描绘了参与人策略演进的过程并解释了为何将达到纳什均衡以及如何达到。而深度学习中的对抗生成网络模型(GAN)继承了这一思路。GAN将环境设置为二人零和重复博弈,通过生成器(Generator)和判别器(Discriminator)的“对抗博弈”来训练神经网络,利用交叉熵定义损失函数,最终进行模型生成。
本文在GAN网络的基础上简要介绍其依靠的双人零和博弈理论及生成器,判别器和损失函数的数学原理,并尝试探索GAN网络在金融市场中的应用。在可视化部分中,利用手写体数据集展示了GAN实际应用的有效性。

1.引言

深度学习的广泛传播让业界和学界都开始思考深度学习技术本身在金融市场的应用[1]。深度学习非线性的特性,使得其能够帮助挖掘传统线性回归等统计工具所难以发现的规律,在非线性问题及张量,多重共线性数据的处理等问题上具有无可比拟的优势,因此造成了众多量化交易策略的涌现。
同样地,如何将经济学的体系迁移到深度学习的算法设计中也是一个十分具有前景的课题。如利用帕累托最优进行多目标优化的多任务学习[3],该方法使每个任务损失的加权线性组合最小化。而在[2]中,作者将博弈论中的双人多轮零和博弈策略应用到对抗网络的更新中。在分类和回归分析中,深度学习的应用也非常广泛。
进一步地,经济学中以形式逻辑为主的研究范式的局限性已多次被历史所证明:全部古典经济学都构建在以理性人为假说的基石上。不同于社会科学,这一演绎的过程很容易陷入二律背反的困境[4]:双方各自根据普遍承认的原则建立起来的两个命题之间的矛盾,即经济自由主义和国家干预主义的冲突。因此有了行为经济学和博弈论等理论的修正。但是形式逻辑,尤其是数学工具的滥用问题依旧在经济学中普遍存在[5]。而建构在神经网络方法上的模型引入了非线性和辩证性的存在,尽管其在经济学领域的有效性仍有待时间的检验,但至少目前不失为一个高效的研究工具,因此具有广阔的科研前景与价值。
在GNN网络中,生成器G(generator)与判别器D(discriminator)像是双人零和重复博弈的参与者。G类似于一个伪造者,尝试生成赝品并尽可能地不被D识破。而D的身份像是一个警察,尽可能地将G生成的赝品和真品进行区分。在这一过程中,我们首先应该让D学习到真品的特点,即输入训练集(training set)的数据特征,学习完成后给G输入噪声,尝试让G利用噪声生成以假乱真的赝品。
在这里插入图片描述

以手写体数据集为例,D首先学到了Training set 中手写体数据的特点。G会根据输入噪声生成Fake image。D要根据“经验”判断输入到底是真品还是赝品(即来自于Training set 还是来自于G),最终输出一个结果标签。以手写体数据集为例,D首先学到了Training set 中手写体数据的特点。G会根据输入噪声生成Fake image。D要根据“经验”判断输入到底是真品还是赝品(即来自于Training set 还是来自于G),最终输出一个结果标签。

2.博弈论相关

为了行文的严谨性与逻辑性,在此节引入博弈论相关内容的形式化定义与信息学概念的介绍。

2.1二人零和博弈

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2.2交叉熵

GNN网络在“博弈”时使用交叉熵定义损失函数(即支付函数)。在信息论中,熵被用来描述信源概率分布的混乱程度。而交叉熵则用来度量两个分布之间的差异。因此使用交叉熵就可以轻易地看出生成分布q(x)与原始分布p(x)之间的差异,并进一步地优化模型,使q(x)尽可能地逼近p(x)的分布,以此达到以假乱真的效果。交叉熵的定义如下:
在这里插入图片描述

此外,使用交叉熵定义损失函数还可以在使用sigmoid函数梯度下降时避免MSE损失函数学习速率降低的问题。在p(x)的信源熵一定的情况下,交叉熵可用KL散度替换[6]。

3.对抗生成网络模型

3.1模型概述

在这里插入图片描述

在这里插入图片描述

3.2手写体数据集实验

GAN模型的泛化能力允许多模态的输入数据,其中包括图片。将本算法应用在MNIST手写体数据集中,利用数据集中的图片训练,最终使生成器G的输出图片接近真实手写体图片。可视化效果如下:
在这里插入图片描述
可以看到,在第100000次迭代以后,输出的大部分数字在人眼精度下已经几乎分辨不出真假,取得了非常好的效果(代码参见:https://github.com/greedisgood1000/GAN-.git)。

3.3图片生成实验

除了简单的手写体图片,GAN还有在ImageNet数据集输入的基础上生成近乎真实图片的能力[7],在本次实验中,我们选取了其已训练好的模型数据,输入图片类型后,模型生成如下图片:
在这里插入图片描述

4.结论

本文介绍了基于演化博弈的对抗生成网络模型。扮演博弈两方的生成器与预测期之间相互对抗,以此不断更新双方性能,而其损失函数的推导则用到了多轮二人零和博弈中的MaxMin原则。GAN网络在训练时即无需马尔科夫链作为输入,也无需其他辅助推理手段。它在初始时刻不做任何约束,只要求GAN网络按照演化博弈的损失函数迭代,在图片可视化等领域取得了极好的效果。
对抗生成网络强大的生成能力可以广泛的应用于各研究领域,如股票期货市场的时间序列,量化交易模型的开发等。此外尽管瑕不掩瑜,但GAN网络仍有些许不足,如无法输出准确的分布,这使GAN一些问题的处理上略显棘手。以及可以看到,在生成人像图片中的效果仍旧不尽理想,因此GAN网络模型在未来仍有改进的空间。

5.参考文献

[1]Rasekhschaffe K C, Jones R C. Machine learning for stock selection[J]. Financial Analysts Journal, 2019, 75(3): 70-88.
[2]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[J]. Advances in neural information processing systems, 2014, 27.
[3]Sener O, Koltun V. Multi-task learning as multi-objective optimization[J]. Advances in neural information processing systems, 2018, 31
[4]Wike V S. Kant’s Antinomies of Reason: Their Origin and Their Resolution[J]. 1982.
[5]王海滨编.经济学经典教材辅导书 西方经济学 高鸿业版[M].中国人民大学出版社,2015
[6]Kullback S, Leibler R A. On information and sufficiency[J]. The annals of mathematical statistics, 1951, 22(1): 79-86.
[7]Brock A, Donahue J, Simonyan K. Large scale GAN training for high fidelity natural image synthesis[J]. arXiv preprint arXiv:1809.11096, 2018.

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灵宪.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值