蒙特卡洛方法求解强化学习任务——蒙特卡洛评估基本介绍

目录

上一节介绍了使用蒙特卡洛方法状态价值函数 V π ( s ) V_\pi(s) Vπ(s)的近似求解过程。本节对蒙特卡洛评估(蒙特卡洛方法近似求解状态-动作价值函数 q π ( s , a ) q_\pi(s,a) qπ(s,a))进行基本介绍。

蒙特卡洛方法求解 q π ( s , a ) q_\pi(s,a) qπ(s,a)的优势和缺陷

求解 q π ( s , a ) q_\pi(s,a) qπ(s,a)的优势

上一节介绍了近似求解状态价值函数 V π ( s ) V_\pi(s) Vπ(s)的两种方法:首次访问型(first-visit),每次访问型(every-visit)。我们发现:求解状态-动作价值函数 q π ( s , a ) q_\pi(s,a) qπ(s,a)比求解 V π ( s ) V_\pi(s) Vπ(s)更有实际价值

  • 根据 V π ( s ) V_\pi(s) Vπ(s) q π ( s , a ) q_\pi(s,a) qπ(s,a)之间的关联关系,在策略 π ( a ∣ s ) \pi(a \mid s) π(as)给定的条件下,可以直接通过 q π ( s , a ) q_\pi(s,a) qπ(s,a)表示 V π ( s ) V_\pi(s) Vπ(s);
    V π ( s ) = ∑ a ∈ A ( s ) π ( a ∣ s ) q π ( s , a ) V_\pi(s) = \sum_{a \in \mathcal A(s)}\pi(a \mid s)q_\pi(s,a) Vπ(s)=aA(s)π(as)qπ(s,a)
    相反,之所以不用下一状态的状态价值函数 V π ( s ′ ) V_\pi(s') Vπ(s)进行表示,原因在于动态特性函数 p ( s ′ , r ∣ s , a ) p(s',r \mid s,a) p(s,rs,a)未知/不完全可知;因此无法直接进行表达
    V π ( s ) = ∑ a ∈ A ( s ) π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V_\pi(s) = \sum_{a \in \mathcal A(s)}\pi(a \mid s)\sum_{s',r}p(s',r \mid s,a)[r + \gamma V_\pi(s')] Vπ(s)=aA(s)π(as)s,rp(s,rs,a)[r+γVπ(s)]
  • 如果我们直接将 q π ( s , a ) q_\pi(s,a) qπ(s,a)求出,各种状态、各种动作对应的价值结果被求出后,更方便进行策略改进
    q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] q ∗ ( s , a ) = max ⁡ a q π ( s , a ) = q π ( s , π ′ ( s ) ) π ′ ( s ) = arg ⁡ max ⁡ a q π ( s , a ) \begin{aligned} q_\pi(s,a) & = \mathbb E_{\pi}[G_t \mid S_t = s,A_t = a] \\ q_*(s,a) & = \mathop{\max}\limits_{a}q_\pi(s,a) = q_\pi(s,\pi'(s)) \\ \pi'(s) & = \mathop{\arg\max}\limits_{a} q_\pi(s,a) \end{aligned}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值