强化学习导论(Reinforcement Learning:An Introduction)学习笔记(二)

转载 2018年04月16日 18:25:46

强化学习导论

妈耶,有现成的部分翻译,转载自:https://blog.csdn.net/thousandsofwind/article/details/79710209

1.2 例子

思考其发展中的一些例子和可能的应用是理解强化学习的一个好方法。

  • 象棋大师落字。这个决定既出于他的计划——期待的回复和逆向回复,也出于对特定位置和移动及时直觉的判断。
  • 自适应控制器实时调节炼油厂操作的参数。控制器在指定的边际成本的基础上权衡产量/成本/质量达到最优化,而不严格遵守由工程师提出的初始值。
  • 一头瞪羚在出生后几分钟挣扎着站起来。半小时后,它就能以每小时20英里的速度飞奔。
  • 一个家政移动机器人决定是否应该进入一个新的房间,寻找更多的垃圾收集,或者回到蓄电池充电站。这使得基于其电池的充电水平决定和是否快速和方便地找到过去的充电位置。
  • 菲尔准备早餐。仔细想,这些普通的活动揭示了一个复杂的条件的行为网络和目标–子目标连锁关系:走到柜子,打开它,选择一个麦片盒,然后伸手,抓取,和放回。更多复杂的行为序列,需要碗,汤匙,牛奶罐。每一步都涉及到一系列眼球运动来获取信息并指导到达和移动。人们不断地对如何携带物品作出判断,或是在将这些物品运到餐桌前是否更好。每一步都以目标为指导,如抓住勺子或到冰箱,并为其他目标服务,例如,一旦谷物做好准备并最终获得营养,就得有汤匙吃。另外不管他是否意识到这一点,菲尔正在获取关于他身体状况的信息,这些信息决定了他的营养需求、饥饿程度和食物偏好。

​ 这些示例都以为基础容易被忽略。他们都涉及活动决策代理与其环境之间的互动,代理在不确定的环境中仍寻求实现目标。代理的行动能够影响环境(例如,下一个国际象棋位置、炼油厂的水库水位、机器人的下一个位置和电池的未来充电水平),从而影响到代理之后的选择和面对的环境。正确的选择要考虑到行动的间接的、延迟的后果,因此需要具有远见或计划。

​ 同时,我们无法完全预测到这些例子中行动的影响,因此代理必须持续监视其环境并作出适当的反应。例如,Phil必须看着他倒进麦片碗里的牛奶,以防止牛奶溢出。所有这些例子中代理人在直接感知的基础上可以进行进度的判断,因而某种程度上可以说目标是清晰的( All these examples involve goals that are explicit in the sense that the agent can judge progress toward its goal based on what it can sense directly)。象棋玩家知道他是否赢了,炼油厂的管理人员知道有多少石油正在生产,移动机器人知道电池耗尽时,Phil知道他是否正在享用他的早餐。

​ 在所有这些示例中,随着时间的推移代理可以使用它的经验来改进其性能。这位棋手提高了他用来评估位置的直觉,从而提高了他的下棋能力;瞪羚提高了奔跑的效率;Phil学会了流程的制作早餐。在任务开始时代理所具有的过去相关任务中的经验或其设计和演化带来的知识影响了学什么更有用或更轻松,但与环境的交互对于利用任务的特性更加至关重要。

再议EPR实施成功率为零

  编者按   2000年9月26日,本报曾经刊登过一篇名为“ERP成功几率为零”的文章,在国内工商界与软件界引起了很大反响。但这一问题的本质是什么?如何解决?时至今日仍没有一个完整的答案。目前,国内...
  • jiangtao
  • jiangtao
  • 2001-10-25 10:25:00
  • 2608

强化学习导论(Reinforcement Learning: An Introduction)读书笔记(一):强化学习介绍

因为课题需要研究强化学习的内容,因此开始读这方面的书,Reinforcement Learning: An Introduction(Richard S. Sutton and Andrew G.Ba...
  • y954877035
  • y954877035
  • 2017-01-14 12:43:47
  • 5924

强化学习导论 第二版 英文版 2017最新版 Reinforcement Learning An Introduction

  • 2017年12月27日 14:46
  • 12.11MB
  • 下载

Reinforcement Learning An Introduction.2016+增强学习导论翻译

  • 2017年09月24日 22:44
  • 11.61MB
  • 下载

增强学习导论(Reinforcement Learning An Introduction_Sutton)

  • 2017年09月05日 20:44
  • 5.75MB
  • 下载

强化学习第二版(翻译)第一章 导论 第四节 局限性和适用范围 1.4 Limitations and Scope

    从前面的讨论中,应该清楚的是,强化学习很大程度上依赖于状态的概念。他既作为对策略和值函数的输入,也作为模型的输入和输出。非正式地,我们可以把状态看作是传达给代理的某种特定时期“环境如何”的信号...
  • thousandsofwind
  • thousandsofwind
  • 2018-03-29 16:27:17
  • 118

增强学习导论代码Reinforcement Learning - An Introduction(Second edition, Draft)

  • 2016年11月07日 21:43
  • 90KB
  • 下载

纯干货11 强化学习(Reinforcement Learning)教材推荐

之前,给大家推荐了两套强化学习视频教程。 纯干货10 强化学习视频教程分享(从入门到精通) 今天给大家推荐两本关于强化学习的教程。第一本 《Reinforcement Learning An ...
  • lqfarmer
  • lqfarmer
  • 2017-07-10 09:40:14
  • 3205

Reinforcement Learning:An Introduction 读书笔记- Chapter 1

Reinforcement Learning: An Introduction第一章
  • PeytonPu
  • PeytonPu
  • 2017-11-05 17:18:09
  • 324

强化学习导论(Reinforcement Learning: An Introduction)读书笔记(二):多臂赌博机(Multi-arm Bandits)

研究困难的问题之前先要解决简单的问题,本章以多臂赌博机作为问题对象。多臂赌博机是一类非常简单的问题,它只包含一种情景,但可以说明强化学习中的一些基本方法。1.多臂赌博机 多臂赌博机是指一类问题,这类问...
  • y954877035
  • y954877035
  • 2017-01-14 22:16:07
  • 3162
收藏助手
不良信息举报
您举报文章:强化学习导论(Reinforcement Learning:An Introduction)学习笔记(二)
举报原因:
原因补充:

(最多只允许输入30个字)