股票操作之强化学习基础(三)(Deep Q Network、Actor-critic、Policy gradients)
接上一篇文章继续介绍一些强化学习基础。
1 DQN(Deep Q Network)
DQN是一种融合了神经网络和Q-learning的方法。那么DQN提出来的动机是什么呢?Q-learning算法的核心是学习Q-table,然而真实世界的状态非常多,这些状态多到计算机已经无法储存了。比如在围棋中,不同的牌面布局就有很多种。因此DQN被提出来,其核心思想就是利用神经网络来近似这个Q-table。
举个例子:假设一个学习好的Q-table如下:
假设我们用一个神经网络来近似这个Q-table,输入状态(state)和动作(action),就能利用神经网络输出其对应Q-table中的Q值。或者我们输入一个状态,神经网络可以输出所有动作对应的Q值。
但是单纯的用神经网络代替Q-table又是不可行的,其原因主要如下 [2]:
1)DL(Deep learning,深度学习)是监督学习需要学习训练集,强化学习不需要训练集只通过环境进行返回奖励值reward,同时也存在着噪声和延迟的问题,所以存在很多状态state的reward值都是0也就是样本稀疏。
2)DL每个样本之间互相独立,而RL(ReinforcementLearning,强化学习)当前状态的状态值是依赖后面的状态返回值的。
3)当我们使用非线性网络来表示值函数的时候可能出现不稳定的问题。