蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛控制

目录

上一节介绍了离轨策略使用重要性采样方法对价值函数的求解过程,本节将介绍使用离轨策略方法求解蒙特卡洛控制过程。

回顾:基于离轨策略的蒙特卡洛策略评估

针对离轨策略行为策略 b ( a ∣ s ) b(a \mid s) b(as)目标策略 π ( a ∣ s ) \pi(a \mid s) π(as)无必然联系——使用重要性采样方法将两种策略的期望关联起来。这里加权重要性采样 为例,近似求解状态价值函数 V π ( s ) V_\pi(s) Vπ(s)结果如下:
V π ( s ) = E π [ G t ∣ S t = s ] = E b [ ρ t : T − 1 G t ∣ S t = s ] ≈ ∑ i = 1 N ρ t : T − 1 G t ( i ) ∑ i = 1 N ρ t : T − 1 \begin{aligned} V_\pi(s) & = \mathbb E_\pi[G_t \mid S_t = s] \\ & = \mathbb E_b[\rho_{t:T-1}G_t \mid S_t = s] \\ & \approx \frac{\sum_{i=1}^N \rho_{t:T-1}G_t^{(i)}}{\sum_{i=1}^N \rho_{t:T-1}} \end{aligned} Vπ(s)=Eπ[GtSt=s]=Eb[ρt:T1GtSt=s]i=1Nρt:T1i=1Nρt:T1Gt(i)
其中:
ρ t : T − 1 = ∏ k = t T − 1 π ( A k ∣ S k ) b ( A k ∣ S k ) \rho_{t:T-1} = \prod_{k = t}^{T-1}\frac{\pi(A_k \mid S_k)}{b(A_k \mid S_k)} ρt:T1=k=tT1b(AkSk)π(AkSk)

并且在基于离轨策略的蒙特卡洛策略评估中介绍了采样的具体流程:

  • 基于给定的行为策略 b ( a ∣ s ) b(a \mid s) b(as)目标策略 π ( a ∣ s ) \pi(a \mid s) π(as),(对应矩阵元素相除)求出 π ( a ∣ s ) b ( a ∣ s ) \frac{\pi(a \mid s)}{b(a \mid s)} b(as)π(as)(也是矩阵形式);
  • 针对某一完整情节(已达到终结状态 S T S_T ST),从 t t t时刻开始,根据各时刻的状态-动作二元组 π ( a ∣ s ) b ( a ∣ s ) \frac{\pi(a \mid s)}{b(a \mid s)} b(as)π(as)矩阵中进行查找——求出各时刻的 π ( A k ∣ S k ) b ( A k ∣ S k ) \frac{\pi(A_k \mid S_k)}{b(A_k \mid S_k)} b(AkSk)π(AkSk)结果;
    π ( A t ∣ S t ) b ( A t ∣ S t ) , π ( A t + 1 ∣ S t + 1 ) b ( A t + 1 ∣ S t + 1 ) , . . . , π ( A T − 1 ∣ S T − 1 ) b ( A T − 1 ∣ S T − 1 ) \frac{\pi(A_t \mid S_t)}{b(A_t \mid S_t)},\frac{\pi(A_{t+1} \mid S_{t+1})}{b(A_{t+1} \mid S_{t+1})},...,\frac{\pi(A_{T-1} \mid S_{T-1})}{b(A_{T-1} \mid S_{T-1})} b(AtSt)π(AtSt),b(At+1St+1)π(At+1St+1),...,b(AT1ST1)π(AT1ST1)
  • 根据上一步骤的结果,求出重要度系数 ρ t : T − 1 \rho_{t:T-1} ρt:T1
    ρ t : T − 1 = ∏ k = t T − 1 π ( A k ∣ S k ) b ( A k ∣ S k ) = π ( A t ∣ S t ) b ( A t ∣ S t ) ⋅ π ( A t + 1 ∣ S t + 1 ) b ( A t + 1 ∣ S t + 1 ) ⋅ . . . ⋅ π ( A T − 1 ∣ S T − 1 ) b ( A T − 1 ∣ S T − 1 ) \begin{aligned} \rho_{t:T-1} & = \prod_{k = t}^{T-1}\frac{\pi(A_k \mid S_k)}{b(A_k \mid S_k)} \\ & = \frac{\pi(A_t \mid S_t)}{b(A_t \mid S_t)}\cdot \frac{\pi(A_{t+1} \mid S_{t+1})}{b(A_{t+1} \mid S_{t+1})}\cdot...\cdot \frac{\pi(A_{T-1} \mid S_{T-1})}{b(A_{T-1} \mid S_{T-1})} \end{aligned} ρt:T1=k=tT1b(AkSk)π(AkSk)=b(AtSt)π(AtSt)b(At+1St+1)π(A
  • 6
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值