强化学习中的REINFORCE策略函数

最新推荐文章于 2025-03-29 17:08:26 发布

catbird233

最新推荐文章于 2025-03-29 17:08:26 发布

阅读量3.8k

点赞数 3

转自：https://blog.csdn.net/Pony017/article/details/81146374

从REINFORCE到PPO，看Policy Gradient的前世今生

Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line、on-policy的方法，后者是on-line、off-policy的方法。前者是策略迭代，关心的是策略网络的参数；后者是值迭代，关心的是值网络的输出。随着RL的不断发展，这两类方法在不断交错领跑的过程中交汇融合，不断给我们带来新的惊喜。

本文重点在介绍Policy Gradient方法，从其“初心”出发，通过一步步的推导来讲述新的算法。后半部分的重点将放在兼具漂亮理论基础和简洁代码实现的PPO方法上，欢迎RL入门级的小朋友们一起讨论学习！

Policy Gradient

如果你已经了解了DQN，也许会想到这样一个问题：为什么一定要用值函数来做决策（当然这个想法也是很自然的），为什么不绕过值函数直接用神经网络来表示策略呢？
当然，想要讨论清楚这个问题不是很容易，有很多不同的看法，感兴趣的小朋友可以看一下知乎上对问题RL两大类算法的本质区别？（Policy Gradient 和 Q-Learning)
南京大学俞杨老师的答案，很有启发性

---------------------
作者：马小疼
来源：CSDN
原文：https://blog.csdn.net/Pony017/article/details/81146374
版权声明：本文为博主原创文章，转载请附上博文链接！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。