动态规划(一)

最优化问题

       动态规划(Dynamic programming)是用来优化一个随机问题的最优解,随机问题是只我们优化的目标是随机的,最优解指的是在统计平均上的最优。

       比较权威的参考资料:Dimiri P. Bertsekas, Dynamic Programming and Optimal Control, 3rd ed., Athena Scientific, Belmont, Massachusetts,2005

一般优化问题描述

minuUg(u)

  •  u  是最优化问题的决策
  •  g(u)  是决策的代价函数
  •  U  是所有决策  ui  的集合

    动态规划的优化问题可以分为:

    1. 随机优化问题:

            由于代价函数存在一个随机变量 w ,因此最优解的优化目标是代价函数的统计平均。

    g(u)=EwG(u,w)

    1. 确定优化问题:

           这个问题代价函数是一个确定函数。

       如何区分这两个问题呢?我们可以观察系统是否存在随机性,这个随机性是体现在系统之中的,而不是这个系统。举个栗子,优化一个随机网络是个确定性问题,即给定任意网络结构,找到最短路径,因为网络虽然是随机的,但是优化的目标在确定以后是不变的。然而优化一个随时变化的网络是一个随机问题,即一边进行优化,网络结构一边在变的问题。
       动态规划正是可以解决每一个步骤都有随机变量  w  影响的目标函数,如何在全局取得统计平均上最优解的问题。后面我们可以看到每一个决策都会利用  w  的信息。

随机动态规划的结构

离散时间系统

xk+1=fk(xk,uk,wk),k=0,1,,N1

其中:

  •  k  :表示离散 (也可以看作是步骤)。
  •  xk  :表示在时间  k  ,该状态具有马尔科夫性,即当前状态已经包含决策所需要的各种信息,与之前的状态无关。当前状态将会参与决策。
  •  uk  :表示在时间  k  所输出的 ,即再时间  k  在集合
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值