强化学习与最优控制学习记录-1

学习记录

资料:《强化学习与最优控制》——[美]Dimitri P. Bertsekas

学习记录主要是为了加强理解并方便日后查阅,督促自己学习。因为教材是全英文,且笔者为初学者,如果有理解错误或专业名词错误欢迎指正。

1.2 随机动态规划(Stochastic Dynamic Programming)

随机最优控制问题对比于确定性最优控制问题多了一个随机扰动量\omega _{k},扰动量符合概率分布P_{k}(\cdot |x_{k},u_{k})。即,系统的形式为

x_{k+1}=f_{k}(x_{k},u_{k},\omega _{k}),\qquad k=0,...,N-1

两种优化控制问题最大的区别是在随机问题中,不是通过找出一个有确定值的控制序列\left \{ u_{0},...,u_{N-1} \right \}来实现目标,而是通过一种策略(policies,也被称为闭环控制率或反馈策略)来实现,表示为:

\pi ={\mu _{0},...,\mu_{N-1}}

其中的\mu_{k}可使得x_{k}映射为u_{k},即u_{k}=\mu_{k}(x_{k})

 两个问题的另一个重要区别是随机最优控制问题在计算中还会涉及到期望值,而这往往需要使用Monte Carlo simulation。给定了polices与系统初值x_{0}后,之后状态的x_{k}和扰动\omega_{k}分布由系统方程定义

x_{k+1}=f_{k}(x_{k},\mu_{k}(x_{k}),\omega_{k}),\qquad k=0,1,...,N-1

对于给定的cost functions g_{k}和初值x_{0},在控制率\pi的控制下期望的cost表达式为

J_{\pi}(x_{0})=E\left \{ g_{N}(x_{N})+\sum_{k=0}^{N-1}g_{k}(x_{k},\mu_{k}(x_{k}),\omega_{k}) \right \}

其中的期望值操作E\left \{ \cdot \right \}是针对所有随机变量x_{k}\omega_{k} 的。则使得上式值最小的控制策略就是最优的控制策略,记为\pi^*。即满足

J_{\pi^*}(x_{0})=\min_{\pi\epsilon \prod }J_{\pi}(x_{0})

J^*(x_{0})=\min_{\pi\epsilon \prod }J_{\pi}(x_{0})也被称为 optimal cost function/optimal value function 。 

随机有限时域问题中的DP算法 

定义

J^*_{N}(x_{N})=g_{N}(x_{N})

且对于所有的 k=0,...,N-1 ,有

J^*_{k}(x_{k})=\min_{u_{k}\epsilon U_{k}(x_{k})}E \left \{ g_{k}(x_{k},u_{k},\omega_{k})+J^*_{k+1}(f_{k}(x_{k},u_{k},\omega_{k}))\right \}\qquad(1)

如果u^*_{k}=\mu^*_{k}(x_{k})使得(1)式等式右边对于所有的x_{k}\omega_{k}都为最小,则此时的\pi^*=\left\{\mu^*_{0},...,\mu^*_{N-1}\right\}是最优的。

同样的,如果将所有的精确值都用近似值代替,可得到近似估计值。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值