深度学习10-策略梯度:一种替代方法

### 策略梯度:一种替代方法

▪  与已经熟悉的Q-learning进行对比,概述该方法的动机、优势和劣势。
▪  从被称为REINFORCE的简单策略梯度方法开始,尝试将其应用于CartPole环境,并将其与深度Q-network(DQN)方法进行比较。

交叉熵方法即使使用如此简单的假设也可以工作,但是使用Q(s,a)而不是仅使用0和1进行训练会有明显的提升。因为进行了更细粒度的片段分离。例如,比起奖励是1的片段中的状态转移,总奖励为10的片段的状态转移应该对梯度有更多的贡献。使用Q(s,a)而不是仅使用0或1常数的第二个原因,增加片段开始时优质动作的概率,并减少更接近片段结尾的动作(因为Q(s,a)包含折扣因子,所以会自动考虑较长动作序列的不确定性)。这是REINFORCE方法的思想。其步骤如下:
1)用随机权重初始化网络。
2)运行N个完整的片段,保存其(s,a,r,s')状态转移。
3)对于每个片段k的每一步t,计算后续步的带折扣的总奖励:。
4)计算所有状态转移的损失函数:。
5)执行SGD更新权重,以最小化损失。
6)从步骤2开始重复,直到收敛。
**上述算法在几个重要方面与Q-learning不同:**
▪  不需要显式的探索。在Q-learning中,使用ε-greedy策略来探索环境,并防止智能体陷入非最优策略的困境。现在,利用神经网络返回的概率,可以实现自动探索。在开始时,使用随机权重初始化神经网络,它会返回均匀的概率分布。此分布对应于智能体的随机行为。
▪  不需

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五百五。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值