7. 最优策略

1. 强化学习算法的形式化描述

定义1个离散时间的折扣马尔科夫决策过程 M = < S , A , P , R , γ > M=<S,A,P,R,\gamma> M=<S,A,P,R,γ>,其中,S,A,P,R, γ \gamma γ分别为状态空间,动作空间,状态转移概率,立即回报函数,折扣因子。T为总的时间步, τ \tau τ为一个轨迹序列, τ = ( s 0 , a 0 , r 0 , s 1 , a 1 , r 1 , ⋯   ) \tau =(s_0,a_0,r_0,s_1,a_1,r_1,\cdots) τ=(s0,a0,r0,s1,a1,r1,),对应累积回报 R = ∑ t = 0 T γ k r t R=\sum_{t=0}^T\gamma^kr_t R=t=0Tγkrt,强化学习的目标是:
找到最优策略 π \pi π,使得该策略下,累积回报期望最大,即: π = arg ⁡ max ⁡ π R ( τ ) \pi=\arg\max_\pi R(\tau) π=argmaxπR(τ)

总之,强化学习的目标就是:
找到最优策略!!!

2. 何谓最优策略

2.1 两个策略的优劣

已知策略 π a \pi_a πa π b \pi_b πb,若对 ∀ s ∈ S \forall s\in S sS,都有 V π a ( s ) ≥ V π b ( s ) V_{\pi_a}(s)\ge V_{\pi_b}(s) Vπa(s)Vπb(s),则称 π a \pi_a πa优于 π b \pi_b πb,记作: π a ≥ π b \pi_a\ge \pi_b πaπb
用通俗的话讲:若策略A在环境处于任何状态下,都比策略B能获得更多的累积回报,则A优于B。例如:若围棋手A在任何棋局下,都比围棋手B,更快地赢得棋局,则说明A采用的策略优于B采用的策略。

2.2 最优策略

对于任何马尔科夫决策过程,在所有可能采取的策略空间中,总存在一个策略 π ∗ \pi^* π,优于其他所有策略,则称该策略为该过程的最优策略,即:
π ∗ ≥ π , ∀ π \pi^*\ge\pi, \forall \pi ππ,π

3. 求解最优策略

由最优行为值函数及最优状态值函数的定义可知,策略最优时,值函数也最优,反过来值最优,策略也最优。
最优策略是确定性策略,因而最优策略可用函数 π ∗ ( s ) \pi^*(s) π(s)表示,输出的是状态s下的最优动作。
(1)已知 V ∗ V^* V,求 π ∗ ( s ) \pi^*(s) π(s)
π ∗ ( s ) = arg ⁡ max ⁡ a ∈ A [ R s a + γ ∑ s ′ ∈ S P s s ′ a V ∗ ( s ′ ) ] \pi^*(s)=\arg\max_{a\in A}\left[ R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV^*(s') \right] π(s)=argaAmax[Rsa+γsSPssaV(s)]
(2)已知 Q ∗ ( s , a ) Q^*(s,a) Q(s,a),求 π ∗ ( s ) \pi^*(s) π(s)
π ∗ ( s ) = arg ⁡ max ⁡ a ∈ A Q ∗ ( s , a ) \pi^*(s)=\arg\max_{a\in A}Q^*(s,a) π(s)=argaAmaxQ(s,a)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

aganim

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值