深度学习10-策略梯度：一种替代方法

五百五。

已于 2023-01-14 14:23:19 修改

阅读量1k

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络人工智能

于 2023-01-02 12:26:45 首次发布

本文链接：https://blog.csdn.net/clayhell/article/details/128519750

版权

本文对比了策略梯度与Q-learning，介绍了策略梯度方法的优势和劣势。通过一个简单的REINFORCE示例，阐述了策略梯度算法的步骤，并分析了其与Q-learning的不同之处，如无需显式探索、在线策略和无需目标网络。同时，讨论了基于策略和基于价值方法的特性，指出策略方法直接优化行为，但通常需要更多环境交互。

摘要由CSDN通过智能技术生成

### 策略梯度：一种替代方法

▪ 与已经熟悉的Q-learning进行对比，概述该方法的动机、优势和劣势。
▪ 从被称为REINFORCE的简单策略梯度方法开始，尝试将其应用于CartPole环境，并将其与深度Q-network（DQN）方法进行比较。

交叉熵方法即使使用如此简单的假设也可以工作，但是使用Q(s,a)而不是仅使用0和1进行训练会有明显的提升。因为进行了更细粒度的片段分离。例如，比起奖励是1的片段中的状态转移，总奖励为10的片段的状态转移应该对梯度有更多的贡献。使用Q(s,a)而不是仅使用0或1常数的第二个原因，增加片段开始时优质动作的概率，并减少更接近片段结尾的动作（因为Q(s,a)包含折扣因子，所以会自动考虑较长动作序列的不确定性）。这是REINFORCE方法的思想。其步骤如下：
1）用随机权重初始化网络。
2）运行N个完整的片段，保存其(s,a,r,s')状态转移。
3）对于每个片段k的每一步t，计算后续步的带折扣的总奖励：。
4）计算所有状态转移的损失函数：。
5）执行SGD更新权重，以最小化损失。
6）从步骤2开始重复，直到收敛。
**上述算法在几个重要方面与Q-learning不同：**
▪ 不需要显式的探索。在Q-learning中，使用ε-greedy策略来探索环境，并防止智能体陷入非最优策略的困境。现在，利用神经网络返回的概率，可以实现自动探索。在开始时，使用随机权重初始化神经网络，它会返回均匀的概率分布。此分布对应于智能体的随机行为。
▪ 不需