RLAI读书笔记-第十三章-Policy Gradient Methods

最新推荐文章于 2024-05-29 07:15:00 发布

cuixuange

最新推荐文章于 2024-05-29 07:15:00 发布

阅读量279

点赞数

分类专栏： machine-learning 强化学习基础文章标签： RLAI 策略梯度下降

本文链接：https://blog.csdn.net/u014297722/article/details/82348162

版权

本文深入探讨了Policy Gradient方法，包括策略近似、策略梯度定理、蒙特卡洛策略梯度、优势函数与基线策略、Actor-Critic算法的应用，特别强调了在连续状态空间和动作空间中的优势。文章还比较了策略基学习与值基学习的优缺点，并指出在高维连续问题中策略基方法的效率。

摘要由CSDN通过智能技术生成

policy gradient Methods
Model Free的策略梯度直接策略搜索
值函数:策略评估+策略改善 ==》值函数最优，策略就是最优的的 ==》value-based method
策略搜索: 对于策略π进行参数化表示 π(a|s,θ)==》policy-based method

13.1 Policy Approximation
https://zhuanlan.zhihu.com/p/28348110
先验知识:
likeliHood ratios似然比似然系数
函数在某个变量θ处的梯度等于该处函数值与该函数的对数函数在此处梯度的乘积，
dlog(y) = dy / y
1.原来J(θ)求导后为:
source Function
2.连续行为
行为的具体数值以μ(s)为均值,x为标准差的高斯分布中随机采样:
▽θlogπθ(s,a) = (α-μ(s))φ(s) / (x^2)

13.2 The Policy gradient Theorem
J(θ)是策略目标函数,再计算其梯度,沿着梯度上升的方向寻找局部最大值
J(θ) = d(s) * πθ(S,a)R(S,a)
其中d(s)是状态S满足的分布函数
结论:
J(θ)的梯度 = E期望(策略函数的对数的梯度 * 即时奖励)
连续问题:
将即时奖励替换为Q

13.3 Monte Carlo Policy gradient
更新参数θ
e.g. Puck世