股票操作之强化学习基础(三)(Deep Q Network、Actor-critic、Policy gradients)

股票操作之强化学习基础(三)(Deep Q Network、Actor-critic、Policy gradients)

接上一篇文章继续介绍一些强化学习基础。

1 DQN(Deep Q Network)

DQN是一种融合了神经网络和Q-learning的方法。那么DQN提出来的动机是什么呢?Q-learning算法的核心是学习Q-table,然而真实世界的状态非常多,这些状态多到计算机已经无法储存了。比如在围棋中,不同的牌面布局就有很多种。因此DQN被提出来,其核心思想就是利用神经网络来近似这个Q-table。

举个例子:假设一个学习好的Q-table如下:
在这里插入图片描述
假设我们用一个神经网络来近似这个Q-table,输入状态(state)和动作(action),就能利用神经网络输出其对应Q-table中的Q值。或者我们输入一个状态,神经网络可以输出所有动作对应的Q值。
在这里插入图片描述
但是单纯的用神经网络代替Q-table又是不可行的,其原因主要如下 [2]:

1)DL(Deep learning,深度学习)是监督学习需要学习训练集,强化学习不需要训练集只通过环境进行返回奖励值reward,同时也存在着噪声和延迟的问题,所以存在很多状态state的reward值都是0也就是样本稀疏。

2)DL每个样本之间互相独立,而RL(ReinforcementLearning,强化学习)当前状态的状态值是依赖后面的状态返回值的。

3)当我们使用非线性网络来表示值函数的时候可能出现不稳定的问题。

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值