学习记录
资料:《强化学习与最优控制》——[美]Dimitri P. Bertsekas
学习记录主要是为了加强理解并方便日后查阅,督促自己学习。因为教材是全英文,且笔者为初学者,如果有理解错误或专业名词错误欢迎指正。
1.2 随机动态规划(Stochastic Dynamic Programming)
随机最优控制问题对比于确定性最优控制问题多了一个随机扰动量,扰动量符合概率分布
。即,系统的形式为
两种优化控制问题最大的区别是在随机问题中,不是通过找出一个有确定值的控制序列来实现目标,而是通过一种策略(policies,也被称为闭环控制率或反馈策略)来实现,表示为:
其中的可使得
映射为
,即
。
两个问题的另一个重要区别是随机最优控制问题在计算中还会涉及到期望值,而这往往需要使用Monte Carlo simulation。给定了polices与系统初值后,之后状态的
和扰动
的分布由系统方程定义
对于给定的cost functions 和初值
,在控制率
的控制下期望的cost表达式为
其中的期望值操作是针对所有随机变量
和
的。则使得上式值最小的控制策略就是最优的控制策略,记为
。即满足
也被称为 optimal cost function/optimal value function 。
随机有限时域问题中的DP算法
定义
且对于所有的
,有
如果
使得(1)式等式右边对于所有的
和
都为最小,则此时的
是最优的。
同样的,如果将所有的精确值都用近似值代替,可得到近似估计值。