强化学习打卡之策略梯度与PPO
Policy Gradient是基于策略的,不同于前面的算法输出是Q值,Policy Gradient的输出是动作概率值,使用 gradient ascent来实现 maximize expected reward,也就是调整 actor 内部的参数 θ, 使得 R 的值越大越好
实现的时候要注意两个tips
Tip 1: Add a Baseline
原式子中的梯度值总是大于零的,同一状态下有的action没有被sample到,而被sample到的action概率增加,意味着没被sample到的action概率就要减小(因为所有action概率和为1?),这时候没被sample到的action就很委屈,不是它不够好,只是没被sample到。加上一个baseline b来避免这个问题。
Tip 2: Assign Suitable Credit
由以上式子可以看出梯度值大小是由(R-b