![80f01ef6775ceb0b18ac69a1a4576ba6.png](https://img-blog.csdnimg.cn/img_convert/80f01ef6775ceb0b18ac69a1a4576ba6.png)
与变分法或者庞特里亚金最大值原理(Pontryagin's maximum principle)不同,动态规划并非一次性解出状态变量的最优路径和最优控制函数以使得目标泛函最大化,而是将动态优化问题分解为一个个递归问题逐次求解。
本系列文章主要针对离散型随机最优控制问题,最终目标是在测度论和泛函分析的框架下严谨地研究Bellman式的函数方程(Functional Equation),即:站在一般的视角下审视Bellman方程。对于连续型随机最优控制问题暂不做探讨。
首先介绍几个有用的数学工具,并假设以下所有函数均为可微函数。
1.上鞅收敛定理(Doob):记基于
鞅(上/下鞅)是利用条件期望定义的一种随机过程,因此天然地与“预测”相联系。粗略地讲,上鞅是一种呈现不断下降趋势的随机序列,上鞅收敛是说:如果一串非负随机序列是上鞅,那么就存在极限,并且这种收敛方式是:几乎必然的(强收敛)。
2.非线性规划:
对于静态优化问题
若约束函数的雅可比矩阵
与等式优化的最优性条件区别在于:拉格朗日乘子(影子价格)非负、互补松弛条件。
如果目标函数
3.动态规划:
对于随机控制问题
其中
当然也可以写成:
其中的积分一般应理解为Lebesgue积分。
Bellman方程是一种函数方程,其解的存在性由压缩映射原理(Banach fixed point Theorem)保证。确定性动态规划的解的存在性非常容易证明,无非是证明下述迭代过程:
Bellman方程等式右边的优化问题是针对控制变量
这个等式中,我们默认了穿过积分号求导的合理性。一般情况下,经济学中的函数都满足控制收敛定理(D.C.)的条件,也就是大多数情况下这么做没什么问题。但我们必须牢记:穿过积分号求导并不是那么自然的,是有条件的。
值得注意的是,若控制变量
这个问题是针对控制变量
将由一阶条件隐函数式定义的最优控制函数
如果我们恰当地选择控制变量,以使得
后移一期得
注意不要将求导的撇与下期变量的撇混淆。
代入一阶条件,得到随机Euler方程:
经济学中,得到了Euler方程,就得到了理性行为人在经济系统中的动态最优决策,就得到了理性经济人的行为法则。
4.一个经济学模型(演示以上定理的综合运用)
该问题的Bellman方程为
如果我们选择
推导过程如下:我们选择
若假设
因此Bellman方程改写为
针对Bellman方程右端优化问题,构造拉格朗日函数
由Kuhn-Tucker定理
从而
由Benvensite-Scheinkman公式得
从而
5.导言
Bellman方程的形式致使我们考虑如下的函数方程:
To Be Continued