强化学习常用算法比较

本文深入比较了强化学习中的几种算法:动态规划(DP)、蒙特卡罗方法(MC)、时间差分学习(TD)和深度Q学习(DQN)。DP依赖Bellman方程,但需要环境知识且易受维度灾难影响。MC方法基于经验求解最优策略,适用于episode任务。TD学习结合DP和MC优点,适用于连续任务,但可能不及时。n-step Bootstrapping在性能上优于MC和TD(0),但计算复杂。DQN通过引入深度学习解决了RL在高维问题上的挑战,经验回放和目标网络提高了训练稳定性。
摘要由CSDN通过智能技术生成

Dynamic Programming

  • 思路:
    利用Bellman方程迭代,每次迭代过程中,用所有的状态s的第k次迭代得到的vk(s’)来计算第k+1次的vk+1(s)的值。经过这种方法的反复迭代,最终可以收敛到最优的v∗(s)。
    Bellman方程:
  • 优势: 更新无需等待最后的结果。
  • 缺点: 环境的完整知识;维数灾难。

Monte Carlo Methods

  • 思路:
    通过经验(状态、动作和奖励的样本序列)求解最优策略。比如在初始状态s,遵循策略π,最终获得了总回报R,这就是一个样本。如果我们有许多这样的样本,就可以估计在状态s下,遵循策略π的期望回报。
  • 优势: 蒙特卡罗方法不需要对环境的完整知识(区别于DP)。仅仅需要经验(状态、动作和奖励的样本序列)就可以求解最优策略,这些经验可以在线获得或者根据某种模拟机制获得。
  • 缺点:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值