浅谈DP、MC、TD方法的区别与联系

本文探讨了强化学习中的基础算法——动态规划(Dynamic Programming)、蒙特卡洛方法(Monte Carlo)和时间差分(Temporal Difference)的差异与联系。在MDP模型中,DP利用贝尔曼方程迭代求解最优值函数,MC通过回合制采样计算值函数,而TD则结合了DP的bootstrapping和MC的采样特性,适用于大型状态空间问题。
摘要由CSDN通过智能技术生成

引言

  • Dynamic Programming, Monte Carlo, Temporal Difference是强化学习过程中最基础的三种算法,本文主要总结一下这三种方法的区别与联系;
  • 强化学习模型本质上是一个随机过程,可以用概率图模型来描述,就像 HMM 可以使用有向图来描述,马尔可夫网可以使用无向图来描述,强化学习对应的图模型是Finite Markov Decision Process(MDP),如下图(也被称作智能体-环境交互模型):
    在这里插入图片描述
  • 强化学习主要分为两步工作,第一步,预测每个状态的value function或Q function,第二步,根据value function或Q function生成Policy;

Dynamic Programming

  • MDP模型已知,使用贝尔曼方程进行迭代求解value function
    V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V_\pi(s)=\sum_a \pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma V_\pi(s')] Vπ(s)=aπ(as)s
  • 5
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值