【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

无模型

再解释一下什么是无模型?无模型就是状态转移函数,回报函数不知道的情况,不知道在 ( s , a ) (s,a) (s,a)的情况下,状态怎么转移,回报函数也不知道, π ( s t + 1 ∣ s t , a t ) \pi (s_{t+1} | s_t, a_t) π(st+1st,at)的转移概率未知。
基于模型的动态规划方法中是基于模型的,包括策略迭代法和值函数迭代法,可以统一到广义策略迭代法,即先进行策略评估(计算值函数),然后基于基函数做策略改善,这种思想同样适用于无模型的情况。

蒙特卡洛方法

在给定的策略 π \pi π的作用下,可以计算 累 积 回 报 {\color{red}{累积回报}} G t G_t Gt,
G t = R t + 1 + γ R t + 2 + . . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t=R_{t+1}+\gamma R_{t+2}+....=\sum_{k=0}^\infty \gamma^kR_{t+k+1} Gt=Rt+1+γRt+2+....=k=0γkRt+k+1
状态值函数和状态-行为值函数的本质是期望。
状 态 值 函 数 {\color{red}{状态值函数}} υ π ( s ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] \upsilon_\pi(s)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s\big] υπ(s)=Eπ[k=0γkRt+k+1St=s]
状 态 − 行 为 值 函 数 {\color{red}{状态-行为值函数}} q π ( s , a ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] q_\pi(s,a)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s, A_t=a\big] qπ(s,a)=Eπ[k=0γkRt+k+1St=s,At=a]
在模型已知的情况下,可以通过模型计算期望。在无模型的情况下,可以通过经验平均来估计期望,常采用蒙特卡罗实验方法。基本的思路就是利用蒙特卡洛反复实验,得到实验数据,计算经验平均,在经验平均的基础上进行策略评估和改善。
v n ( s ) = 1 n ∑ j = 0 n G j ( s ) v_n(s)=\frac{1}{n} \sum_{j=0}^n G_j(s) vn(s)=n1j=0nGj(s) n n n表示访问状态 s s s的次数
具体的操作方法有:第一次访问蒙特卡洛方法和每次访问蒙特卡洛方法,前者估计的方差略小。
可以将上式改成递推的形式
v n ( s ) = v n − 1 ( s ) + 1 n ( G n ( s ) − V n − 1 ) v_n(s)=v_{n-1}(s)+\frac{1}{n}(G_n(s)-V_{n-1}) vn(s)=vn1(s)+n1(Gn(s)Vn1)

基于蒙特卡洛的强化学习方法

  1. 所有状态初始化,值函数初始化
  2. 反复随机选择一个状态,以一个策略(行动策略)选择该状态下的一个行为,得到反馈序列,对在实验中出现的每一个状态-行为对以及附属的回报,计算对应的状态-行为值函数。
  3. 进行策略评估和改善(目标策略)

基于蒙特卡洛的强化学习方法(随机策略计算状态值函数)

无模型的强化学习方法-蒙特卡罗算法编程实现

基于蒙特卡洛的强化学习方法( ε − g r e e d y \varepsilon-greedy εgreedy策略计算状态行为值函数)

无模型的强化学习方法-蒙特卡罗算法编程实现

同策略和异策略

如果行动策略和目标策略是相同的策略,称之为同策略;否则称之为异策略,异策略中的两个策略需要满足:行动策略包含或者覆盖目标策略。异策略可以保证充分的探索性。

参考书籍:

  1. 深入浅出强化学习原理入门

欢迎关注微信公众号:AITBOOK
在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值