强化学习之——Q-Learning(基础部分)

状态转移概率:从掌握到放弃 前几篇介绍了基于马尔可夫决策的强化学习框架,我们发现解决的问题有一个特点,我们是知道环境运转的细节的,具体就是我们知道状态转移概率,也就是P(St+1∣St,at)P(S_{t+1}|S_t,a_t)P(St+1​∣St​,at​)。对于蛇棋这个游戏,我们可以看到前方是上升梯子还是下降梯子,然后选择对应的投掷手法来接近或者避开,相当于站在上帝视角。 但是现实情况下,很多时候我们不知道这个状态转移概率。一般,我们将知道状态转移概率的问题称为”基于模型“ 的问题(Model-ba
摘要由CSDN通过智能技术生成

状态转移概率:从掌握到放弃

 前几篇介绍了基于马尔可夫决策的强化学习框架,我们发现解决的问题有一个特点,我们是知道环境运转的细节的,具体就是我们知道状态转移概率,也就是 P ( S t + 1 ∣ S t , a t ) P(S_{t+1}|S_t,a_t) P(St+1St,at)。对于蛇棋这个游戏,我们可以看到前方是上升梯子还是下降梯子,然后选择对应的投掷手法来接近或者避开,相当于站在上帝视角。
 但是现实情况下,很多时候我们不知道这个状态转移概率。一般,我们将知道状态转移概率的问题称为”基于模型“ 的问题(Model-based Problem),将不知道状态转移概率的问题称为
无模型”的问题(Model-free Problem)。
 以进阶版蛇棋为例,在新版蛇棋游戏中,我们不再对玩家现实棋盘信息,也就是你看不到梯子了,同时也不现实每次投掷之后骰子的数目,每次玩家选择完投掷手法后,将直接得到棋子所在的下一个位置,而不会知道其他任何信息。
 如果知道状态转移概率,我们可以通过前面介绍的学习算法,迭代执行策略评估和策略改进得到最优的策略。而对于上面的改进版蛇棋,我们不知道状态转移概率,无法直接进行策略评估,也就是不能用Bellman公式进行值函数的更新。这个时候需要用别的方法进行策略评估了。
 我们想到了强化学习的特点:不断试错,也就是通过尝试与环境交互来解决策略评估的问题。我们给出新算法的大体思路:

  1. 确定一个初始策略
  2. 用这个策略进行游戏,得到一些游戏序列(Episode):{ KaTeX parse error: Expected 'EOF', got '}' at position 28: …a_2,...,s_n,a_n}̲
  3. 游戏达到了一定轮数后,我们就认为这些序列代表了当前策略与环境交互的表现,聚合这些序列,得到状态对应的值函数(用到大数定律思想)。
  4. 得到了值函数,就可以进行策略评估,也就是用策略迭代+策略改进进行策略的更新了。如果策略更新完成就结束,否则返回2。

 问题的关键在于:

  1. 如何得到这些游戏序列
  2. 如何使用得到的序列进行策略评估

蒙特卡罗方法

 蒙特卡罗方法通过随机采样来估计期望值
 假设我们通过一些方法,从状态 s s s和行动 a a a开始不断与环境交互,得到了大量的样本序列:
{ s t , a t , s t + 1 i , a t + 1 i , s t + 2 i , a t + 2 i , . . . } i = 1 N \{ s_t,a_t,s_{t+1}^i,a_{t+1}^i,s_{t+2}^i,a_{t+2}^i,... \}_{i=1}^N { st,at,st+1i,at+1i,st+2i,at+2i,...}i=1N
 对应的回报序列为: { r t , r t + 1 i , r t + 2 i } i = 1 N \{ r_t,r_{t+1}^i,r_{t+2}^i\}_{i=1}^N { rt,rt+1i,rt+2i}i=1N
 我们可以通过这些采集得到的样本序列来逼近真实的期望值(大数定理思想):
q ( s , a ) ≈ 1 N ∑ t = 1 N ∑ k = 0 ∞ γ k r t + k q(s,a) ≈ \frac{1}{N}\sum_{t=1}^N\sum_{k=0}^∞γ^kr_{t+k} q(s,a)N1t=1Nk=0

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值