policy gradient Methods
Model Free的策略梯度 直接策略搜索
值函数:策略评估+策略改善 ==》值函数最优,策略就是最优的的 ==》value-based method
策略搜索: 对于策略π进行参数化表示 π(a|s,θ)==》policy-based method
13.1 Policy Approximation
https://zhuanlan.zhihu.com/p/28348110
先验知识:
likeliHood ratios似然比 似然系数
函数在某个变量θ处的梯度等于该处函数值与该函数的对数函数在此处梯度的乘积,
dlog(y) = dy / y
1.原来J(θ)求导后为:
source Function
2.连续行为
行为的具体数值以μ(s)为均值,x为标准差的高斯分布中随机采样:
▽θlogπθ(s,a) = (α-μ(s))φ(s) / (x^2)
13.2 The Policy gradient Theorem
J(θ)是策略目标函数,再计算其梯度,沿着梯度上升的方向寻找局部最大值
J(θ) = d(s) * πθ(S,a)R(S,a)
其中d(s)是状态S满足的分布函数
结论:
J(θ)的梯度 = E期望(策略函数的对数的梯度 * 即时奖励)
连续问题:
将 即时奖励替换为Q
13.3 Monte Carlo Policy gradient
更新参数θ
e.g. Puck世