【莫烦强化学习】视频笔记(五)1.什么是策略梯度?

第12节 什么是策略梯度——《强化学习笔记》


12.1 策略梯度简介

之前在【莫烦强化学习】视频笔记(一)2. 强化学习方法汇总中有提到过,强化学习的一种分类方法是基于概率的方法和基于价值方法,其中 策略梯度 是一种基于概率的方法。
之前所学到的Q学习SARSA学习DQN等都是根据奖励值(奖惩)来进行行为选择的,选择价值较高的行为。而策略梯度则不需要看奖励值,直接输出对应的行为。更多的,可以通过为其添加神经网络的方式来预测行为。

优点:可以在连续区间内挑选动作(比如动作是角度等等,是个连续的量),而基于值的方法,如果在连续空间内选取动作,计算量和存储量会十分的大。

在这里插入图片描述


12.2 更新过程的不同之处

神经网络的参数更新需要用到反向传递算法,需要利用误差来更新网络参数,那么策略梯度的误差是什么呢?策略梯度没有误差,但是也在进行一种反向传递。这种反向传递的目的是使这次发生的行为更有可能在下一次发生,具体对这部分的理解还需要看算法本身,在后面可能会有更详细的说明。但是如何确定是否增加这个动作下一次选择的概率呢?那还是需要Reward(奖励值)的帮助。
在这里插入图片描述


12.3 更新过程简介

在这里插入图片描述
以上图为例,来大致阐述以下Policy Gradient的更新过程。

Step 1 首先神经网络通过观测信息Observation获得选择的动作,当然一开始网络参数初始化,预测很随机。
Step 2 把这次动作反向传递前,先观察奖励Reward是不是一个好的行为,如果是的话,反向传递的时候,使其选择该动作的机会更大(增加被选择可能性的幅度更大),否则增加的幅度会减小。


上一篇:【莫烦强化学习】视频笔记(四)2.DQN实现走迷宫
下一篇:【莫烦强化学习】视频笔记(五)2.策略梯度算法实现

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值