∇θπθ(s,a) = πθ(s, a) *[∇θπθ(s, a)/ πθ(s, a)] = πθ(s, a)∇θ logπθ(s, a),而这个∇θlog πθ(s, a)我们称之为得分函数(Score function)
score function 是对数策略梯度
MC policy gradient episode结束后,计算每个Q(s,a),然后按照score function * r 的方向调整参数
在actor-critic方法中,
critic的参数w更新,需要用TD-Error,乘以Q(s,a)对w的导数。以前是计算Q(s,a),直接加上TD-Error就可以了,现在是更新Q(s,a)的参数w,需要乘以Q(s,a)对w的导数。