蒙特卡洛方法、DP方法和TD方法的主要区别（原理版）

最新推荐文章于 2025-04-10 17:55:27 发布

鲸鱼行空

最新推荐文章于 2025-04-10 17:55:27 发布

阅读量764

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_52698429/article/details/127547190

版权

博客主要介绍了DP、蒙特卡洛和TD三种方法的更新方式。蒙特卡洛和TD无需环境模型，DP需依赖完整环境模型。详细给出三种方法的更新公式，总结其更新特点，还探究了更新原理，如TD方法通过数学推导，在价值函数数组V变化不大时，蒙特卡洛误差可写成TD误差之和。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

蒙特卡洛方法和TD都不需要环境模型，而DP方法需要依赖完整的环境模型，这是最重要的前提。

一、三种方法的更新方式

DP

基于策略迭代的DP可以表示成(严谨写法不是下面这样的，下面的写法主要是为了展示算法中的更新过程）：
$v_{k+1}(s) = \Sigma_{a}\pi(a|s) \Sigma_{s',r'} p(s',r|s,a)[r+\gamma v_{k}(s')]$

基于价值函数的DP可以表示成（非严谨写法）：
$v_{k+1}(s) = max_{a} \Sigma_{s',r'} p(s',r|s,a)[r+\gamma v_{k}(s')]$ (k为迭代次数，可不用管）

蒙特卡洛方法

**
首次访问型的蒙特卡洛方法可以表示成：
$V(S_{t})$ $\gets$ $V(S_{t})+(G(t) -V(S_{t}))/(n+1)$

适用于非平稳环境的每次访问型蒙特卡洛方法可以表示成：
$V(S_{t})$ $\gets$ $V(S_{t})+\alpha(G(t) -V(S_{t}))$

TD方法

**
$V(S_{t})$ $\gets$ $V(S_{t})+\alpha(R(t+1) + \gamma V(S_{t+1}) -V(S_{t}))$

可以看到TD方法用 $\gamma V(S_{t+1})$ 近似替代了每次访问型蒙特卡洛中的G(t)。

二、三种方法的更新方式总结

蒙特卡洛方法通过采样得到G(t)来更新 $V(S_{t})$ ，并且以 $V(S_{t})$ 的终值作为 $V_{\pi}$ (s)的估计值；
DP则是通过环境模型给定的p(s’,r|s,a)以及 $\pi$ (a|s)来迭代更新 $v_{\pi}$ (s),在更新时将 $v_{\pi} (S_{t})$ 作为 $v_{\pi}$ (s)的估计值。
TD方法结合了二者，将 $v_{\pi} (S_{t})$ 作为 $v_{\pi}$ (s)的估计值，从而在单步采样后得到G(t)的估计值，并用G(t)的估计值更新 $V(S_{t})$ ,最后将 $V(S_{t})$ 的终止作为 $v_{\pi}(s)$ 的终值。
TD和蒙特卡洛的更新又叫采样更新，采样更新和DP方法使用的更新方式的不同在于，采样更新依赖的是基于后继结点的样本数据；而DP是依赖于后继结点的分布状态（环境模型所决定的）。

三、更新方式的原理探究

1、蒙特卡洛方法

通过大量采样的模拟真实情况

2、DP

凭借环境模型保证了可靠性

3、TD

TD方法的背后理论究竟是什么呢？TD在更新方式上简单的融合了蒙特卡洛方法和DP，但是蒙特卡洛和DP适用的先决条件实际上有很大差异。这时候数学推导就发挥它奇妙作用，为TD理论进行了强有力的背书。

如果价值函数数组V在一幕内没有发生改变，那么蒙特卡洛误差实际上可以写成TD误差之和。其中TD误差是指 $\delta_{t} = R(t+1) + \gamma V(S_{t+1}) -V(S_{t})$ , 蒙特卡洛误差是指 $G(t) -V(S_{t})$ , 推导如下。
$-V(S_{t}) \\= G(t) -V(S_{t}) + \gamma V(S_{t+1}) - \gamma V(S_{t+1}) \\= R(t+1) + \gamma G(t+1) - V(S_{t} ) + \gamma V(S_{t+1}) - \gamma V(S_{t+1}) \\= \delta_{t} + \gamma((G_{t+1})-V(S_{t+1})) \\= \delta_{t} + \gamma \delta_{t+1} + \delta^{2}(G_{t+2} - V(S_{t+2})) \\= \delta_{t} + \gamma \delta_{t+1} + \gamma^{2}\delta_{t+2} + \cdots +\gamma^{T-t-1}\delta_{T-1} + \gamma^{T-t}(G(T) - V(S_{T})) \\= \delta_{t} + \gamma \delta_{t+1} + \gamma^{2}\delta_{t+2} + \cdots +\gamma^{T-t-1}\delta_{T-1} + \gamma^{T-t}(0-0) \\= \Sigma^{T-1}_{k=t}\gamma^{k-t}\delta_{k}$