强化学习导论(Reinforcement Learning:An Introduction)学习笔记(五)

转载 2018年04月16日 18:28:12

强化学习导论

1.5 拓展例子:井字棋

https://blog.csdn.net/thousandsofwind/article/details/79745086

(注:尝试了很多次就是没有办法发全文,迷)

为了说明强化学习的一般概念,并与其他方法进行对比,我们接下来将更详细地考虑一个示例。

​ 想想我们熟悉的孩子玩的井字棋。棋手在三行三列的棋盘上博弈,一个棋手下X,另一个下O。若X或O的连续三个棋子落于一行或一列或同一斜线上则获胜;若棋盘被填满也不能决出胜负则为平局。让我们假设,我们是在和一个不完美的棋手比赛,他的战术有时是不正确的,并且允许我们获胜。而且,让我们考虑平局和亏损对我们同样不利。我们如何构建一个能在对手的游戏中发现玩家的漏洞,并取得最大化获胜的机会的机器棋手?

​ 虽然这是一个简单的问题,但传统方法难以很好地解决。例如,博弈论中经典的“极小极大”解在这里是不正确的,因为对手可能有特殊的博弈方式。极小极大棋手从不去他可能输棋的局面,就是由于对手的失误他可能能胜出(For example, a minimax player would never reach a game state from which it could lose, even if in fact it always won from that state because of incorrect play by the opponent)。经典的连续决策问题的最优方法,如动态规划,可以计算出任何对手的最优解,但要求输入该对手的全部规格,包括对手在每个基础状态(board state,不明白)下移动的概率。让我们假设在问题无法获得这些先验信息,因为它不适用于大多数实际问题。另一方面,这样的信息可以从经验中估计,在这个例子上就是和对手下棋。最好能学习对手的行为模式,达到一定的置信水平(some level of confidence),然后应用动态规划来计算近似的对手模型的最优解。这与我们在本书后面研究的强化学习方法没有什么不同。

​ 这个问题的一种进化方法将直接搜索一个策略空间以找到最可能赢的那个。在这里,一个策略是告诉玩家在游戏中的各个状态下如何进行移动的规则–既3*3的板子上x和o所有可能摆放的位置。我们考虑策略中,获胜的估计概率将通过与对手进行一些比赛来获得。这一评估将决定下一步将考虑哪个或哪些策略。一种典型的演化方法是在策略空间中进行爬坡,然后在尝试进步的过程中依次生成和评估策略。或者,也许可以使用遗传算法来维护和评估一组策略。实际上,我们有上百种不同的优化方法。

​ 下面是使用值函数的方法来解决黑白棋问题的方法。首先,我们建立了一个数字表,每个数字对应一个游戏状态。每一个数字将是我们获胜的最新估计。我们把这个估计看作是状态的价值,整个表是学习的值函数。如果A的胜率高于比,我们就认为A的价值高于B,或A比B更好。假设我们玩X,那么所有三个X居于一列的获胜的概率是1,因为我们已经赢了。同样地,对于所有三个O居于一列,或者所有三列被“填充”(or that are “filled up),获胜的概率是0,因为从那时起我们就不可能赢了。我们将所有其他状态的初始值设为0.5,表示猜测我们有50%的获胜机会。

​ 我们和对手打了许多场比赛。为了选择我们的动作,我们检查每个动作可能产生的状态(在棋盘上的每个空格中有一个),并在表中查找它们当前的值。大多数时候,我们贪婪地移动,选择最有价值的运动,也就是说,以最高的获胜概率。然而,偶尔我们会从其他动作中随机选择。这些被称为探索性的行动,因为它们使我们体验到我们可能从未见过的状态。在游戏中移动和考虑的序列可绘制成图1.1。

图1.1:一系列井字棋移动。实线表示游戏中所采取的动作;虚线表示我们(强化学习播放器)考虑但未做的动作。我们的第二次移动是一个探索性的举措,这意味着e*所表示的移动在等级上优于当前举动。探索性的动作不会导致任何学习,但我们的其他动作都会产生更新,导致了如弧线箭头所显示的那种更新–如文中所写,估值函数自下而上的产生了变化。

​ 当我们下棋的时候,我们按游戏中的发现不断改变状态的值,使这些值能更准确地估计获胜的可能性。为了做到这一点,在贪婪移动后,我们重写前一状态的值(we “back up” the value of the state after each greedy move to the state before the move)。更准确地说,前一状态的当前值被更新以接近后续状态的值。这可以通过将前一状态值稍向后状态值靠近一小部分来完成(This can be done by moving the earlier state’s value a fraction of the way toward the value of the later state)。如果让s表示在移动前的状态,s‘表示移动后状态,那么将s的估计值的更新表示为V(s),可以写成

V(s) ← V(s) +

强化学习导论(Reinforcement Learning: An Introduction)读书笔记(一):强化学习介绍

因为课题需要研究强化学习的内容,因此开始读这方面的书,Reinforcement Learning: An Introduction(Richard S. Sutton and Andrew G.Ba...
  • y954877035
  • y954877035
  • 2017-01-14 12:43:47
  • 5879

强化学习导论 第二版 英文版 2017最新版 Reinforcement Learning An Introduction

  • 2017年12月27日 14:46
  • 12.11MB
  • 下载

Reinforcement Learning An Introduction.2016+增强学习导论翻译

  • 2017年09月24日 22:44
  • 11.61MB
  • 下载

增强学习导论(Reinforcement Learning An Introduction_Sutton)

  • 2017年09月05日 20:44
  • 5.75MB
  • 下载

强化学习第二版(翻译)第一章 导论 第四节 局限性和适用范围 1.4 Limitations and Scope

    从前面的讨论中,应该清楚的是,强化学习很大程度上依赖于状态的概念。他既作为对策略和值函数的输入,也作为模型的输入和输出。非正式地,我们可以把状态看作是传达给代理的某种特定时期“环境如何”的信号...
  • thousandsofwind
  • thousandsofwind
  • 2018-03-29 16:27:17
  • 112

增强学习导论代码Reinforcement Learning - An Introduction(Second edition, Draft)

  • 2016年11月07日 21:43
  • 90KB
  • 下载

纯干货11 强化学习(Reinforcement Learning)教材推荐

之前,给大家推荐了两套强化学习视频教程。 纯干货10 强化学习视频教程分享(从入门到精通) 今天给大家推荐两本关于强化学习的教程。第一本 《Reinforcement Learning An ...
  • lqfarmer
  • lqfarmer
  • 2017-07-10 09:40:14
  • 3150

Reinforcement Learning:An Introduction 读书笔记- Chapter 1

Reinforcement Learning: An Introduction第一章
  • PeytonPu
  • PeytonPu
  • 2017-11-05 17:18:09
  • 309

强化学习导论(Reinforcement Learning: An Introduction)读书笔记(二):多臂赌博机(Multi-arm Bandits)

研究困难的问题之前先要解决简单的问题,本章以多臂赌博机作为问题对象。多臂赌博机是一类非常简单的问题,它只包含一种情景,但可以说明强化学习中的一些基本方法。1.多臂赌博机 多臂赌博机是指一类问题,这类问...
  • y954877035
  • y954877035
  • 2017-01-14 22:16:07
  • 3140

《reinforcement learning:an introduction》第二章《Multi-arm Bandits》总结

由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。 对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。 因为之...
  • mmc2015
  • mmc2015
  • 2017-07-10 22:47:31
  • 764
收藏助手
不良信息举报
您举报文章:强化学习导论(Reinforcement Learning:An Introduction)学习笔记(五)
举报原因:
原因补充:

(最多只允许输入30个字)