强化学习-赵世钰(七):TD->Sarsa->n-step Sarsa(on-line)【Sarsa&MC】【求贝尔曼公式】->Q-learning(off-line)【PPT】

本文介绍了时差分学习(TD)及其在强化学习中的应用,包括Sarsa和Q-learning算法。Sarsa用于估计给定策略的actionvalue,Q-learning则能直接估计最优动作值。文中还讨论了这两种算法的优缺点以及与蒙特卡洛学习的关系。
摘要由CSDN通过智能技术生成

本讲座介绍了时差分(TD)学习,这是强化学习(RL)中最著名的方法之一。

  • 蒙特卡罗(MC)学习是第一种无模型方法。
  • 时差分学习是第二种无模型方法。
  • 相比于蒙特卡罗,时差分具有一些优势。 

我们将看到在上一讲中研究的随机逼近方法是如何有用的。

一、Motivating example: stochastic algorithms

 R 对应于reward;

\gamma对应于discount rate;

v 对应于 state value;

X 对应于 state value;

一、TD learning of state values

1、Algorithm description

2、Algorithm properties

最基础的TD算法(公式3):

  • 只是来估计state value,只是来做policy evaluation这件事情;
  • 它不能来估计action value;
  • 它也不能直接搜索到最优的策略;

3、The idea of the algorithm

TD算法是在没有模型的情况下计算贝尔曼公式。

R表示immediatly Reward,G表示跳到下一步得到的Return;

4、Algorithm convergence

5、Algorithm properties:TD算法与蒙特卡洛算法比较

二、Sarsa【on-policy】(TD learning of action values)

原始Sarsa用于估计一个给定policy(π)的action value(policy evaluation)。

和policy improvement结合就可以进行policy evaluation与policy improvement相互迭代得到求解最优策略的算法。

1、Sarsa – Algorithm【用来计算Action Value】

2、Sarsa – Implementation【与policy improvement结合来寻找最优策略】

关于这个算法的说明: 

  • 在更新q(st, at)之后,策略st会立即更新。这基于广义策略迭代的思想。
  • 为了很好地平衡开发和探索,该策略是 \varepsilon-贪婪的,而不是贪婪的。

明确核心思想和复杂性:

  • 核心思想很简单:即使用算法解决给定策略的贝尔曼方程。
  • 复杂性出现在我们试图找到最优策略并高效工作时。

3、Sarsa – Examples

4、Sarsa变形01:Expected Sarsa

5、Sarsa变形02:n-step Sarsa

  • Sarsa只需要一步的数据,就更新,所以说是实时的;
  • MC需要等到一个episode的数据搜集结束再更新,所以也是offline的;
  • n-step Sarsa折中,需要n步的数据;

由于n步Sarsa包含Sarsa和MC学习作为两种极端情况,其性能是Sarsa和MC学习的混合:

  • 如果n很大,其性能接近MC学习,因此具有较大的方差但较小的偏差。
  • 如果n很小,其性能接近Sarsa,因此由于初始猜测而具有相对较大的偏差和相对较低的方差。
  • 最后,n步Sarsa也用于策略评估。它可以与策略改进步骤结合,以搜索最优策略。

三、Q-learning【off-policy】

直接估计optimal action values,不需要进行policy evaluation和policy improvement相互迭代计算来找最优策略。

接下来,我们介绍Q-learning,这是最广泛使用的强化学习算法之一。

  • Sarsa可以估计给定策略的动作值。它必须与策略改进步骤结合,以找到最优策略。
  • Q-learning可以直接估计最优动作值,从而找到最优策略。

1、Q-learning – Algorithm【求解一个贝尔曼最优方程】

求解一个贝尔曼最优方程。

2、Off-policy vs on-policy

在深入研究Q-learning之前,我们首先介绍两个重要的概念:基于策略学习和离策略学习。 在TD学习任务中存在两种策略:

  • 行为策略用于生成经验样本。
  • 目标策略不断朝着最优策略进行更新。

Off-policy vs on-policy: 

  • 当行为策略与目标策略相同时,这种学习称为on-policy。 
  • 当它们不同的时候,学习被称为Off-policy。

off-policy learning的优势: 

  • 它可以基于由任何其他策略生成的经验样本搜索最优策略。
  • 作为一个重要的特殊情况,行为策略可以选择为探索性的。例如,如果我们想要估计所有状态-动作对的动作值,我们可以使用一个探索性策略生成访问每个状态-动作对足够多次的轨迹。

如何判断一个时序差分(TD)算法是同策略还是离策略? 

  • 首先,数学上检查算法的实现。
  • 其次,检查实施算法需要哪些条件。

这值得特别注意,因为对初学者来说,这是最令人困惑的问题之一。

3、Q-learning – Implementation

3.1 on-policy version

3.2 off-policy version

4、Q-learning – Examples

探索性下降到0.5,得到的结果变差。 \varepsilon = 0.5 

探索性下降到0.1,得到的结果更差。 \varepsilon = 0.1 

四、TD算法统一公式(A unified point of view)

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
4S店客户管理小程序-毕业设计,基于微信小程序+SSM+MySql开发,源码+数据库+论文答辩+毕业论文+视频演示 社会的发展和科学技术的进步,互联网技术越来越受欢迎。手机也逐渐受到广大人民群众的喜爱,也逐渐进入了每个用户的使用。手机具有便利性,速度快,效率高,成本低等优点。 因此,构建符合自己要的操作系统是非常有意义的。 本文从管理员、用户的功能要出发,4S店客户管理系统中的功能模块主要是实现管理员服务端;首页、个人中心、用户管理、门店管理、车展管理、汽车品牌管理、新闻头条管理、预约试驾管理、我的收藏管理、系统管理,用户客户端:首页、车展、新闻头条、我的。门店客户端:首页、车展、新闻头条、我的经过认真细致的研究,精心准备和规划,最后测试成功,系统可以正常使用。分析功能调整与4S店客户管理系统实现的实际需相结合,讨论了微信开发者技术与后台结合java语言和MySQL数据库开发4S店客户管理系统的使用。 关键字:4S店客户管理系统小程序 微信开发者 Java技术 MySQL数据库 软件的功能: 1、开发实现4S店客户管理系统的整个系统程序; 2、管理员服务端;首页、个人中心、用户管理、门店管理、车展管理、汽车品牌管理、新闻头条管理、预约试驾管理、我的收藏管理、系统管理等。 3、用户客户端:首页、车展、新闻头条、我的 4、门店客户端:首页、车展、新闻头条、我的等相应操作; 5、基础数据管理:实现系统基本信息的添加、修改及删除等操作,并且根据需进行交流信息的查看及回复相应操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值