强化学习常用算法比较

最新推荐文章于 2024-03-15 22:30:00 发布

一口大怪兽

最新推荐文章于 2024-03-15 22:30:00 发布

阅读量3.1k

点赞数 1

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lynn_1125/article/details/88038526

版权

本文深入比较了强化学习中的几种算法：动态规划（DP）、蒙特卡罗方法（MC）、时间差分学习（TD）和深度Q学习（DQN）。DP依赖Bellman方程，但需要环境知识且易受维度灾难影响。MC方法基于经验求解最优策略，适用于episode任务。TD学习结合DP和MC优点，适用于连续任务，但可能不及时。n-step Bootstrapping在性能上优于MC和TD(0)，但计算复杂。DQN通过引入深度学习解决了RL在高维问题上的挑战，经验回放和目标网络提高了训练稳定性。

摘要由CSDN通过智能技术生成

目录

Dynamic Programming
Monte Carlo Methods
Temporal-Difference Learning
n-step Bootstrapping
DQN
- 背景
- 改进

Dynamic Programming

思路：
利用Bellman方程迭代，每次迭代过程中，用所有的状态s的第k次迭代得到的vk(s’)来计算第k+1次的vk+1(s)的值。经过这种方法的反复迭代，最终可以收敛到最优的v∗(s)。
Bellman方程：
优势： 更新无需等待最后的结果。
缺点： 环境的完整知识；维数灾难。

Monte Carlo Methods

思路：
通过经验（状态、动作和奖励的样本序列）求解最优策略。比如在初始状态s，遵循策略π，最终获得了总回报R，这就是一个样本。如果我们有许多这样的样本，就可以估计在状态s下，遵循策略π的期望回报。
优势： 蒙特卡罗方法不需要对环境的完整知识（区别于DP）。仅仅需要经验（状态、动作和奖励的样本序列）就可以求解最优策略，这些经验可以在线获得或者根据某种模拟机制获得。
缺点：

最低0.47元/天解锁文章

一口大怪兽

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。