8. 动态规划简介

1. 动态规划是什么

(1)美国数学家贝尔曼在研究多阶段决策过程优化问题时提出的一套最优化原理

(2)把多阶段过程转化为一系列单阶段问题,利用各阶段间的关系,逐个求解,直至求得最终的最优解。

2. 基本思想

把待求解的问题分解为若干子问题,先求解子问题,然后根据子问题的解得到原问题的解。

例如:求5的阶乘,若使用动态规划法求解,则首先,将该问题分解为5×(4的阶乘)两个子问题,只要解决了4的阶乘和两个数乘法的求解问题,则原问题的解就可以得出,而4的阶乘,又可以继续分解为4×(3的阶乘)…,这样的一系列分解,分解后的子问题的规模不断缩小,直至可以直接求解,一旦子问题得以解决,则可以回溯至原问题的最终求解。

3. 动态规划的适用场景

满足下列全部条件的场景:
(1)原问题的解可以分解为若干小问题的解,只要得到了小问题的解,原问题的解就可以得出;
(2)小问题的求解过程与原问题的求解过程相似,区别只在于规模较小;
(3)当小问题的规模小到某个程度时,它的解能直接求出;

4. 动态规划与马尔科夫最优决策

再次回顾一下求解马尔科夫过程的贝尔曼方程:
最优策略为:
π ∗ ( a ∣ s ) = { 1 arg ⁡ max ⁡ a Q ∗ ( s , a ) 0 其他 \displaystyle \pi^*(a|s)=\begin{cases} 1\qquad \arg\max_aQ^*(s,a)\\ 0 \qquad 其他 \end{cases} π(as)={1argmaxaQ(s,a)0其他
为了求 π ∗ \pi^* π,必须求出 Q ∗ ( s , a ) Q^*(s,a) Q(s,a),而 Q ∗ ( s , a ) Q^*(s,a) Q(s,a)可由下式求出:
Q ∗ ( s , a ) = R s a + γ ∑ s ′ ∈ S P s s ′ a V ∗ ( s ′ ) Q^*(s,a)=R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV^*(s') Q(s,a)=Rsa+γsSPssaV(s)
为了求 V ∗ ( s ′ ) V^*(s') V(s),必须求 V π ( s ) V_\pi(s) Vπ(s),根据
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s s ′ a V π ( s ′ ) ) V_\pi(s)=\sum_{a\in A}\pi(a|s)\left( R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV_\pi(s') \right) Vπ(s)=aAπ(as)(Rsa+γsSPssaVπ(s))
可知,要求 V π ( s ) V_\pi(s) Vπ(s),只需要求其后继状态s’的值函数,而后继状态的值函数又可以由后继的后继值函数求解,…
所以,使用动态规划可以求出最优策略。
它涉及到两个操作:

(1)策略评估:根据 < S , A , P , R , γ > <S,A,P,R,\gamma> <S,A,P,R,γ> π \pi π,求 V π ( s ) V_\pi(s) Vπ(s)
(2)策略改进:利用 V π ( s ) V_\pi(s) Vπ(s),对策略进行改进。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

aganim

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值