6. 强化学习之——策略优化进阶

最新推荐文章于 2024-05-09 16:52:57 发布

TheWindOfJune

最新推荐文章于 2024-05-09 16:52:57 发布

阅读量873

点赞数 1

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43450646/article/details/106784856

版权

课程大纲

Policy Gradient 算法的不同的变种

近五年的最新策略优化方法【6种方法，2条主线】

主线一：Policy Gradient ->Natural Policy Gradient -> TRPO -> ACKTR -> PPO

主线二：Q-Learning -> DDPG ->TD3 -> SAC

Policy Gradient 算法的不同形式

总结一下：

Policy Gradient 有许多不同的形式是因为 reward function 的不同

（1）对于 REINFOECE，采用的是纯 MC 采样的方式获得 Gt

（2）对于 Q-Actor-Critic，采用 Q 函数作为 reward

（3）对于 Advantage-Actor-Critic，采用 Q 函数减去 baseline 的 V 函数获得 A

（4）对于 TD Actor-Critic，进一步简化，采用 TD Target

Critic 也有很多不同的策略估计 Policy Evaluation 的方法：例如 MC 或者 TD

策略优化方法前沿理论（SOTA state-of-the-art）

Policy Gradient 主线【基于策略】

Policy Gradient 存在的问题

（1）由于是 on-policy 的算法，它的 sample efficiency 很低

（2）训练过程不稳定，数据不是 IID 的，policy update 或者 step size 有问题的话就可能会崩溃（就不能保

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
6. 强化学习之——策略优化进阶

课程大纲Policy Gradient 算法的不同的变种近五年的最新策略优化过程【6种方法，2条主线】主线一：Policy Gradient ->Natural Policy Gradient -> TRPO -> ACKTR -> PPO主线二：Q-Learning -> DDPG ->TD3 -> SACPolicy Gradient 算法的不同形式总结一下：Policy Gradient 有许多不同的形式是因为 reward f
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。