贝尔曼方程（Bellman Equation）

最新推荐文章于 2024-08-11 18:21:52 发布

caimouse

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量2.8w

点赞数 1

分类专栏：深度学习文章标签： ai python tensorflow 人工智能深度学习

本文链接：https://blog.csdn.net/caimouse/article/details/62043832

版权

深度学习专栏收录该内容

127 篇文章 15 订阅

订阅专栏

贝尔曼方程（Bellman Equation）也被称作动态规划方程（Dynamic Programming Equation），由理查·贝尔曼（Richard Bellman）发现，由于其中运用了变分法思想，又被称之为现代变分法。

贝尔曼方程（Bellman Equation）也被称作动态规划方程（Dynamic Programming Equation），由理查·贝尔曼（Richard Bellman）发现。
贝尔曼方程是动态规划（Dynamic Programming）这些种数学最佳化方法能够达到最佳化的必要条件。此方程把“决策问题在特定时间怎么的值”以“来自初始选择的报酬比从初始选择衍生的决策问题的值”的形式表示。借此这个方式把动态最佳化问题变成开简单的子问题，而这些子问题遵守从贝尔曼所提出来的“最佳化还原理”。
贝尔曼方程最早应用在工程领域的控制理论和其他应用数学领域，而后成为经济学上的重要工具。
几乎所有的可以用最佳控制理论（Optimal Control Theory）解决的问题也可以通过分析合适的贝尔曼方程得到解决。然而，贝尔曼方程通常指离散时间（discrete-time）最佳化问题的动态规划方程。
处理连续时间（continuous-time）最佳化问题上，也有类似那些偏微分方程，称作汉密尔顿-雅克比-贝尔曼方程（Hamilton–Jacobi–Bellman Equation，HJB Equation）。