RL 笔记(2) 从Pollicy Gradient、DDPG到 A3C

最新推荐文章于 2024-07-08 15:21:33 发布

CwwwwS

最新推荐文章于 2024-07-08 15:21:33 发布

阅读量966

点赞数 4

分类专栏：笔记文章标签：强化学习深度学习神经网络

本文链接：https://blog.csdn.net/weixin_43146899/article/details/123241702

版权

本文详细介绍了强化学习中的Policy Gradient方法，包括其原理和优化目标，以及如何处理不可微问题。接着讨论了Actor-Critic算法，解释了它如何通过Critic的即时评估提高学习效率。然后介绍了Deterministic Policy Gradient，适用于连续控制问题，并阐述了DDPG算法的网络结构和更新过程。最后提到了A3C算法，它是基于异步优势Actor-Critic的改进，允许在线学习并减少样本相关性。

摘要由CSDN通过智能技术生成

RL 笔记(2) 从Pollicy Gradient、DDPG到 A3C

Pollicy Gradient

Policy Gradient不通过误差反向传播，它通过观测信息选出一个行为直接进行反向传播。通过更新 Policy Network 来直接更新策略的。实际上就是一个神经网络，输入是状态，输出直接就是动作（不是Q值）。而是利用reward奖励直接对选择行为的可能性进行增强和减弱，好的行为会被增加下一次被选中的概率，不好的行为会被减弱下次被选中的概率。一般输出有两种方式：一种是概率的方式，即输出某一个动作的概率；另一种是确定性的方式，即输出具体的某一个动作举例如下图所示：输入当前的状态，输出action的概率分布，选择概率最大的一个action作为要执行的操作

在这里插入图片描述

如果要更新 Policy Network 策略网络，或者说要使用梯度下降的方法来更新网络，需要有一个目标函数，对于所有强化学习的任务来说，其实目标都是使所有带衰减 reward 的累加期望最大。
$L(θ)=E(r_1+γr_2+γ^2r_3+…|π(,θ))$
这个损失函数和 Policy Network 策略网络简直没有什么直接联系，reward是环境给出的，跟参数 θ 没有直接运算上的关系。那么该如何能够计算出损失函数关于参数的梯度 ∇θL(θ)?