RLAI读书笔记-第十三章-Policy Gradient Methods

本文深入探讨了Policy Gradient方法,包括策略近似、策略梯度定理、蒙特卡洛策略梯度、优势函数与基线策略、Actor-Critic算法的应用,特别强调了在连续状态空间和动作空间中的优势。文章还比较了策略基学习与值基学习的优缺点,并指出在高维连续问题中策略基方法的效率。
摘要由CSDN通过智能技术生成

policy gradient Methods
Model Free的策略梯度 直接策略搜索
值函数:策略评估+策略改善 ==》值函数最优,策略就是最优的的 ==》value-based method
策略搜索: 对于策略π进行参数化表示 π(a|s,θ)==》policy-based method

13.1 Policy Approximation
https://zhuanlan.zhihu.com/p/28348110
先验知识:
likeliHood ratios似然比 似然系数
函数在某个变量θ处的梯度等于该处函数值与该函数的对数函数在此处梯度的乘积,
dlog(y) = dy / y
1.原来J(θ)求导后为:
source Function
2.连续行为
行为的具体数值以μ(s)为均值,x为标准差的高斯分布中随机采样:
▽θlogπθ(s,a) = (α-μ(s))φ(s) / (x^2)

13.2 The Policy gradient Theorem
J(θ)是策略目标函数,再计算其梯度,沿着梯度上升的方向寻找局部最大值
J(θ) = d(s) * πθ(S,a)R(S,a)
其中d(s)是状态S满足的分布函数
结论:
J(θ)的梯度 = E期望(策略函数的对数的梯度 * 即时奖励)
连续问题:
将 即时奖励替换为Q

13.3 Monte Carlo Policy gradient
更新参数θ
e.g. Puck世

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值