贝尔曼方程(Bellman Equation)也被称作动态规划方程(Dynamic Programming Equation)。此方程把“决策问题在特定时间怎么的值”以“来自初始选择的报酬比从初始选择衍生的决策问题的值”的形式表示。借此这个方式把动态最佳化问题变成简单的子问题,而这些子问题遵守从贝尔曼所提出来的“最佳化还原理”
最优化原理一个最优策略,具有如下性质:不论初始状态和初始决策(第一步决策)如何,以第一步决策所形成的阶段和状态作为初始条件来考虑时,余下的决策对余下的问题而言也必构成最优策略。
其中,
是状态变量向量,
是控制变量,
是时间变量,
根据贝尔曼最优原理,以上求解可以转化为:
以上式子最优化问题为:
最优条件为:
一阶条件:
包络引理为:
</