【莫烦强化学习】视频笔记（五）1.什么是策略梯度？

本文链接：https://blog.csdn.net/cherreggy/article/details/107722529

第12节什么是策略梯度——《强化学习笔记》

12.1 策略梯度简介

之前在【莫烦强化学习】视频笔记（一）2. 强化学习方法汇总中有提到过，强化学习的一种分类方法是基于概率的方法和基于价值方法，其中 策略梯度 是一种基于概率的方法。
之前所学到的Q学习、SARSA学习、DQN等都是根据奖励值（奖惩）来进行行为选择的，选择价值较高的行为。而策略梯度则不需要看奖励值，直接输出对应的行为。更多的，可以通过为其添加神经网络的方式来预测行为。

优点：可以在连续区间内挑选动作（比如动作是角度等等，是个连续的量），而基于值的方法，如果在连续空间内选取动作，计算量和存储量会十分的大。

在这里插入图片描述

12.2 更新过程的不同之处

神经网络的参数更新需要用到反向传递算法，需要利用误差来更新网络参数，那么策略梯度的误差是什么呢？策略梯度没有误差，但是也在进行一种反向传递。这种反向传递的目的是使这次发生的行为更有可能在下一次发生，具体对这部分的理解还需要看算法本身，在后面可能会有更详细的说明。但是如何确定是否增加这个动作下一次选择的概率呢？那还是需要Reward（奖励值）的帮助。
在这里插入图片描述

12.3 更新过程简介

在这里插入图片描述
以上图为例，来大致阐述以下Policy Gradient的更新过程。

Step 1 首先神经网络通过观测信息Observation获得选择的动作，当然一开始网络参数初始化，预测很随机。
Step 2 把这次动作反向传递前，先观察奖励Reward是不是一个好的行为，如果是的话，反向传递的时候，使其选择该动作的机会更大（增加被选择可能性的幅度更大），否则增加的幅度会减小。

上一篇：【莫烦强化学习】视频笔记（四）2.DQN实现走迷宫
下一篇：【莫烦强化学习】视频笔记（五）2.策略梯度算法实现