RL 笔记(2) 从Pollicy Gradient、DDPG到 A3C

本文详细介绍了强化学习中的Policy Gradient方法,包括其原理和优化目标,以及如何处理不可微问题。接着讨论了Actor-Critic算法,解释了它如何通过Critic的即时评估提高学习效率。然后介绍了Deterministic Policy Gradient,适用于连续控制问题,并阐述了DDPG算法的网络结构和更新过程。最后提到了A3C算法,它是基于异步优势Actor-Critic的改进,允许在线学习并减少样本相关性。
摘要由CSDN通过智能技术生成

RL 笔记(2) 从Pollicy Gradient、DDPG到 A3C

Pollicy Gradient

Policy Gradient不通过误差反向传播,它通过观测信息选出一个行为直接进行反向传播。 通过更新 Policy Network 来直接更新策略的。实际上就是一个神经网络,输入是状态,输出直接就是动作(不是Q值)。而是利用reward奖励直接对选择行为的可能性进行增强和减弱,好的行为会被增加下一次被选中的概率,不好的行为会被减弱下次被选中的概率。一般输出有两种方式:一种是概率的方式,即输出某一个动作的概率;另一种是确定性的方式,即输出具体的某一个动作举例如下图所示:输入当前的状态,输出action的概率分布,选择概率最大的一个action作为要执行的操作

在这里插入图片描述

如果要更新 Policy Network 策略网络,或者说要使用梯度下降的方法来更新网络,需要有一个目标函数,对于所有强化学习的任务来说,其实目标都是使所有带衰减 reward 的累加期望最大。
L ( θ ) = E ( r 1 + γ r 2 + γ 2 r 3 + … ∣ π ( , θ ) ) L(θ)=E(r_1+γr_2+γ^2r_3+…|π(,θ)) L(θ)=E(r1+γr2+γ2r3+π(,θ))
这个损失函数和 Policy Network 策略网络简直没有什么直接联系,reward是环境给出的,跟参数 θ 没有直接运算上的关系。那么该如何能够计算出损失函数关于参数的梯度 ∇θL(θ)?

现在有一个 Policy Network 策略网络,输入状态,输出动作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值