强化学习(二) Sample-based Learning Methods

第一章 Monte Carlo Methods for Prediction & Control

1.1 What is Monte Carlo?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
MC是直接从episodes中学习,不知道先验的知识,对比赌博机,而且是通过完整的episode,然后注意的是通过MC对于MDP问题来说,所有的spisode必须是有限(终结的),更新的时候是通过episode而不是step。
在这里插入图片描述

应该是算错了
K臂赌博机问题通过摇臂最后平均最后的Rewards,是已知道的值,而Monte Carlo方法最后通过Returns,sample后不知道先验知识来更新。
在这里插入图片描述
回想一下G的定义
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述总结一下:
在这里插入图片描述
首先有在Policy pi下有这样的一个episode S0,A0,R1,S1…直到最后结束,然后初始化G (returns),然后给他们累加得到了return S(sum),最后求到的是平均returns V,作为Value。
在这里插入图片描述
然后不断的累加到s上后,最后求平均的Value,V(S)

Rewards 和 Returns是两个不同的概念,R通常指的是Reward,而G表示的才是Returns。(return 应该指的是状态动作l序列中某个状态及其之后的所有状态的立即回报(reward)的折扣累加和)

1.2 Using Monte Carlo for Prediction

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.3 Using Monte Carlo for Action Values

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在Model未知时,估计动作价值(action-values)要比估计状态价值要有用一些。

而当Model是已知的,仅仅利用状态价值就足够决定策略。

Model未知时,只有状态价值无法决定策略。

在这里插入图片描述

1.4 Using Monte Carlo methods for generalized policy iteration

GPI
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.5 Solving the Blackjack Example

在这里插入图片描述
在这里插入图片描述

1.6 Epsilon-soft policies

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.7 Why does off-policy learning matter?

在这里插入图片描述

the exploration and exploitation trade-off.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
target policy-small;behavior policy-large

1.8 Importance Sampling

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
也就是b到pi差一个比例关系。

1.9 Off-Policy Monte Carlo Prediction

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.10 Emma Brunskill: Batch Reinforcement Learning

在这里插入图片描述

1.11 Week 1 Summary

MC
蒙特卡洛算法是基于样本的方法。当模型不可用或难以记下时,可以使用它们。蒙特卡洛算法通过对多个观察到的回报进行平均来估计价值函数。它们在更新其值之前会等待完整的回报。因此,我们只对偶发的MDP使用蒙特卡洛。我们讨论了如何在广义政策迭代里面使用蒙特卡洛。这导致了我们第一个基于样本的控制算法,即带有探索开始的蒙特卡洛算法。蒙特卡洛算法并不像动态编程那样对状态动作空间进行扫视,所以它们需要一个探索机制来确保它们了解每一个状态动作对。(state-action part
MC with Explore stars
我们首先考虑的是exploring starts。exploring starts需要在每个episode择第一个状态和动作。使用exploring starts并不总是可行或安全的。试想一下,用一辆自主汽车来做exploring starts。这种认识促使我们研究额外的探索方法。我们涵盖了另外两种探索问题的策略。
MC with epsilon-soft
使用Epsilon-soft策略的on-policy off-policy,对于第一种策略,代理遵循并学习一个随机策略。它通常采取贪婪的行动。小部分时间它采取随机行动。这样就保证了所有状态动作对的价值估计会随着时间的推移而不断提高。这种上策略策略迫使我们学习一个接近最优的策略,而不是最优的策略。但是,如果我们想学习一个最优策略,但仍然保持探索呢?
Off-Policy
答案就在于离策略学习。我们介绍了一些关于非政策学习的新定义,让我们来回顾一下。行为策略是(A behavior policy是agent用来选择的的策略。通过发送一个适当的探索性行为策略,agent可以学习任何确定性的目标策略。学习一种策略而落下另一种策略的一种方法是使用重要性采样Sample,为策略下的经验抽样来估计目标策略下的预期收益。比值对样本重新加权。它增加了在Pi下更有可能出现的收益的重要性,它减少了那些不可能出现的收益。样本平均值有效地包含了每个收益的正确比例,因此在预期中,它就像在Pi下采样的收益一样。

第二章 Temporal Difference Learning Methods for Prediction

2.1 What is Temporal Difference (TD) learning?

在这里插入图片描述
TD学习是蒙特卡洛思想和动态编程(DP dynamic programming)思想的结合。

  • 像蒙特卡洛方法一样,TD方法可以直接从原始经验中学习,而不需要环境的动态模型。
  • 像DP一样,TD方法部分地根据其他学习到的估计值更新估计值,而不需要等待最终的结果(它们是自举bootstrap)。
  • TD、DP和蒙特卡洛方法之间的关系是强化学习理论中一个反复出现的主题。
  • 重点在于一方面是policy evaluation,或者说预测问题,另一方面是value function的估计问题。
  • 对于控制问题(寻找最优策略),DP、TD和蒙特卡罗方法都使用了广义策略迭代(GPI generalized policy iteration)的某种变化。这些方法的差异主要是它们对预测问题的处理方法的差异。
    -在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
相比于MC,它除了更新G之外,用加权的思想结合未来的预测值来更新,有一点像卡尔曼滤波器的思想,比如在考虑艾尔法=0和1的时候,看看是什么情况,0的时候就表示没有更新,而1的时候,退化成了MC的更新G(Returns)的方程。在这里插入图片描述
卡尔曼滤波器

2.2 Rich Sutton: The Importance of TD Learning

在这里插入图片描述
在这里插入图片描述
scalable 可扩展的
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
大概是说从大自然学到了一些启发,这种思想很在很多领域都有一些体现,在这里插入图片描述

2.3 The advantages of temporal difference learning

通过举一个回家的例子来比较TD和MC算法,假如你开车回家,路况天气等因素会导致你在某些路段快一些或者慢一些,你估计回家的时间,再根据一些因素不断调整预计回家的时间。
想象你开车回家了很多次,预期是30分钟能开车回家.
(elapsed 过去)
在这里插入图片描述
先看一下MC是如何更新的。
在这里插入图片描述
先回忆一下G的概念,表示Returns,公式如下:
在这里插入图片描述
即从下一个时刻开始的Reward累加到最终结束的状态。
下面表示多少时间过去了,即实际的时间轴。与圆圈内表示当前估计还需要多少时间可以到家。那么两个时间段的差就是走这段时间需要的Reward,标记在直线上。
在这里插入图片描述
在第一个节点,计算G0,代入公式,伽马取了1(G的话直接用Reward相加即可),那么算出来时43,而你预测花费了30分钟,由于艾尔法取了1(比较特殊,直接消掉了),更新后花费的时间是43分钟。
在这里插入图片描述
在第二个节点同样计算在之后到最终的Reward加权和(伽马取1直接相加即可),算出来G1是38,那么更新后替换原来的35。
在这里插入图片描述
同样将更新的23替换原来的15,以此类推最后得到了这样的结果。
在这里插入图片描述
在这里插入图片描述
也就是说必须到这个episode的最后,才能进行更新所有的值。
然而TD不用,只需要下一个状态的预测,我们来看一下如何更新的。
在这里插入图片描述
再经历了堵车后,我们估计还需要35分钟才能到家,这样花费了5分钟为代价,加上离开时候的35分钟,更新后我们预计还有40分钟到家。
在这里插入图片描述
来看一下下一个状态。
在这里插入图片描述
此时由于走了高速通道,这个过程花费了15分钟,而刚开始离开估计需要35分钟,离开后估计还需要15分钟(下个状态的估计),那么更新完是30分钟。
在这里插入图片描述
在这里插入图片描述
最终更新后可以得到这样的结果。不需要等待这个episode结束后就可以实现这个更新过程。

2.4 Comparing TD and Monte Carlo

在这里插入图片描述
初始化在C后,随机移动,我们比较一下TD和MC
在这里插入图片描述
在这里插入图片描述
MC在
TD会时刻更新,而MC会一个episode后才更新。
在这里插入图片描述
在迭代次数1-100后,越来越接近真实值。
看一下RMS指标(root mean square)均方根差
在这里插入图片描述
可以清晰的看出,在episodes比较少的时候,选择小的艾尔法,会很快收敛。

2.5 and Rich Sutton: More on the History of RL

两个大佬在聊天,真不敢信左面是右面那位的研究生导师。。。在这里插入图片描述

2.6 Week 2 Summary

TDMC
每走一步都可以在线学习在知道Return前,必须需要等episode结束
可以从不完整的序列中学习只能从完整的序列学习
在环境中持续工作(非终止)在终止的环境中工作
方差较低,有一定偏差高方差,无偏差
收敛于 vπ (s),不一定是函数近似良好的收敛性,即使是函数逼近
对初始值更敏感对初始值不敏感

第三章 Temporal Difference Learning Methods for Control

3.1 Sarsa: GPI with TD

GPI:Generalized Policy Iteration
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在每个step更新,而不是在episode或converge后更新。
一个Agent处在某一个状态S,在这个状态下它可尝试各种不同的行为,当遵循某一策略时,会根据当前策略选择一个行为A,个体实际执行这个行为,与环境发生实际交互,环境会根据其行为给出即时奖励R,并且进入下一个状态S1,在这个后续状态S1,再次遵循当前策略,产生一个行为A1。
此时,个体并不执行该行为,而是通过自身当前的状态行为价值函数得到该S1A1状态行为对的价值,利用该价值同时结合个体S状态下采取行为A所获得的即时奖励来更新个体在S状态下采取A行为的(状态)行为价值。
也就是更新的时候,从以往算法的单个State升级到了State+action
在这里插入图片描述

3.2 Sarsa in the Windy Grid World

在这里插入图片描述
策略产生的动作,会在下一次循环中使用。在这里插入图片描述
在这里插入图片描述

3.3 What is Q-learning?

在这里插入图片描述
这里和Sarsa算法有一些不同
在这里插入图片描述

3.4 Q-learning in the Windy Grid World

在这里插入图片描述
可能是因为Sarsa每次都更新q幅度过大导致了不稳定,而Qlearning始终选择最大的q。

3.5 How is Q-learning off-policy?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Sarsa更安全一些,Qlearning更激进,因为选择最佳的路径,总是最佳的q。

3.6 Expected Sarsa

在这里插入图片描述
在这里插入图片描述

3.7 Expected Sarsa in the Cliff World

在这里插入图片描述
在很多episode后的情况在这里插入图片描述

在这里插入图片描述

3.8 Generality of Expected Sarsa

Q-learning 是特殊的expected sarsa
在这里插入图片描述
在这里插入图片描述

3.9 Week 3 Summary

在这里插入图片描述

第四章 Planning, Learning & Acting

4.1 What is a Model?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.2 Comparing Sample and Distribution Models

4.3 Random Tabular Q-planning

4.4 The Dyna Architecture

4.5 The Dyna Algorithm

4.6 Dyna & Q-learning in a Simple Maze

4.7 What if the model is inaccurate?

4.8 In-depth with changing environments

4.9 Drew Bagnell: self-driving, robotics, and Model Based RL

4.10 Week 4 Summary

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值