浅谈DP、MC、TD方法的区别与联系

最新推荐文章于 2023-02-10 11:12:38 发布

吃龙虾一样能吃饱

最新推荐文章于 2023-02-10 11:12:38 发布

阅读量4.5k

点赞数 5

分类专栏：强化学习

本文链接：https://blog.csdn.net/qq_36013249/article/details/105868739

版权

本文探讨了强化学习中的基础算法——动态规划（Dynamic Programming）、蒙特卡洛方法（Monte Carlo）和时间差分（Temporal Difference）的差异与联系。在MDP模型中，DP利用贝尔曼方程迭代求解最优值函数，MC通过回合制采样计算值函数，而TD则结合了DP的bootstrapping和MC的采样特性，适用于大型状态空间问题。

摘要由CSDN通过智能技术生成

                    
                    引言 
Dynamic Programming, Monte Carlo, Temporal Difference是强化学习过程中最基础的三种算法，本文主要总结一下这三种方法的区别与联系；
强化学习模型本质上是一个随机过程，可以用概率图模型来描述，就像 HMM 可以使用有向图来描述，马尔可夫网可以使用无向图来描述，强化学习对应的图模型是Finite Markov Decision Process（MDP），如下图（也被称作智能体-环境交互模型）：
 
强化学习主要分为两步工作，第一步，预测每个状态的value function或Q function，第二步，根据value function或Q function生成Policy；
 
Dynamic Programming 
MDP模型已知，使用贝尔曼方程进行迭代求解value function：
  V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V_\pi(s)=\sum_a \pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma V_\pi(s')] Vπ​(s)=a∑​π(a∣s)s

最低0.47元/天解锁文章

吃龙虾一样能吃饱

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
浅谈DP、MC、TD方法的区别与联系

引言Dynamic Programming, Monte Carlo, Temporal Difference是强化学习过程中最基础的三种算法，本文主要总结一下这三种方法的区别与联系；强化学习模型本质上是一个随机过程，可以用概率图模型来描述，就像 HMM 可以使用有向图来描述，马尔可夫网可以使用无向图来描述，强化学习对应的图模型是Finite Markov Decision Process（...
复制链接

扫一扫

专栏目录