QUANT[16]强化学习(Reinforcement Learning)学习笔记4

21 篇文章 1 订阅
10 篇文章 0 订阅

Reinforcement Learning:An Introduction NOTE[2]

1.2 Examples

A good way to understand reinforcement learning is to consider some of the examples and possible applications that have guided its development.

  • 象棋大师落字。这个决定既出于他的计划——期待的回复和逆向回复,也出于对特定位置和移动及时直觉的判断。
  • 自适应控制器实时调节炼油厂操作的参数。控制器在指定的边际成本的基础上权衡产量/成本/质量达到最优化,而不严格遵守由工程师提出的初始值。
  • 一头瞪羚在出生后几分钟挣扎着站起来。半小时后,它就能以每小时20英里的速度飞奔。
  • 一个家政移动机器人决定是否应该进入一个新的房间,寻找更多的垃圾收集,或者回到蓄电池充电站。这使得基于其电池的充电水平决定和是否快速和方便地找到过去的充电位置。
  • 菲尔准备早餐。仔细想,这些普通的活动揭示了一个复杂的条件的行为网络和目标–子目标连锁关系:走到柜子,打开它,选择一个麦片盒,然后伸手,抓取,和放回。更多复杂的行为序列,需要碗,汤匙,牛奶罐。每一步都涉及到一系列眼球运动来获取信息并指导到达和移动。人们不断地对如何携带物品作出判断,或是在将这些物品运到餐桌前是否更好。每一步都以目标为指导,如抓住勺子或到冰箱,并为其他目标服务,例如,一旦谷物做好准备并最终获得营养,就得有汤匙吃。另外不管他是否意识到这一点,菲尔正在获取关于他身体状况的信息,这些信息决定了他的营养需求、饥饿程度和食物偏好。

​ 这些示例都以为基础容易被忽略。他们都涉及活动决策AGENT与其环境之间的互动,AGENT在不确定的环境中仍寻求实现目标。AGENT的行动能够影响环境(例如,下一个国际象棋位置、炼油厂的水库水位、机器人的下一个位置和电池的未来充电水平),从而影响到AGENT之后的选择和面对的环境。正确的选择要考虑到行动的间接的、延迟的后果,因此需要具有远见或计划。

​ 同时,我们无法完全预测到这些例子中行动的影响,因此AGENT必须持续监视其环境并作出适当的反应。例如,Phil必须看着他倒进麦片碗里的牛奶,以防止牛奶溢出。所有这些例子中AGENT人在直接感知的基础上可以进行进度的判断,因而某种程度上可以说目标是清晰的( All these examples involve goals that are explicit in the sense that the agent can judge progress toward its goal based on what it can sense directly)。象棋玩家知道他是否赢了,炼油厂的管理人员知道有多少石油正在生产,移动机器人知道电池耗尽时,Phil知道他是否正在享用他的早餐。

​ 在所有这些示例中,随着时间的推移AGENT可以使用它的经验来改进其性能。这位棋手提高了他用来评估位置的直觉,从而提高了他的下棋能力;瞪羚提高了奔跑的效率;Phil学会了流程的制作早餐。在任务开始时AGENT所具有的过去相关任务中的经验或其设计和演化带来的知识影响了学什么更有用或更轻松,但与环境的交互对于利用任务的特性更加至关重要。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值