课程大纲
Policy Gradient 算法的不同的变种
近五年的最新策略优化方法【6种方法,2条主线】
主线一:Policy Gradient ->Natural Policy Gradient -> TRPO -> ACKTR -> PPO
主线二:Q-Learning -> DDPG ->TD3 -> SAC
Policy Gradient 算法的不同形式
总结一下:
Policy Gradient 有许多不同的形式是因为 reward function 的不同
(1)对于 REINFOECE,采用的是纯 MC 采样的方式获得 Gt
(2)对于 Q-Actor-Critic,采用 Q 函数作为 reward
(3)对于 Advantage-Actor-Critic,采用 Q 函数减去 baseline 的 V 函数获得 A
(4)对于 TD Actor-Critic,进一步简化,采用 TD Target
Critic 也有很多不同的策略估计 Policy Evaluation 的方法:例如 MC 或者 TD
策略优化方法前沿理论(SOTA state-of-the-art)
Policy Gradient 主线【基于策略】
Policy Gradient 存在的问题
(1)由于是 on-policy 的算法,它的 sample efficiency 很低
(2)训练过程不稳定,数据不是 IID 的,policy update 或者 step size 有问题的话就可能会崩溃(就不能保