Reinforcement Learning:An Introduction 读书笔记- Chapter 1

Chapter1 The Reinforcement Learning Problem

增强学习:是一种从环境中进行学习的方法,它比起其他机器学习的方法更加目标导向并且着重交互。

1.1 Reinforcement Learning

增强学习学的是如何为场景选择动作(action),以便使得回报(reward)最大化
增强学习从一个完整(complete),交互(interactive),向目标努力的(goal-seeking)agent开始

增强学习的三大特征:

  1. 闭环(closed-loop):之前选择的action会影响之后的输入
  2. 未告知哪个action可选:只能一个个尝试以得到最大的reward
  3. 影响深远:一个action不只影响到直接结果,可能对后续很长一段时间的结果都有影响。

增强学习不同于监督学习也不同于非监督学习

监督学习是通过一系列外部数据进行训练,使得整个系统可以推断出不存在于训练集中的一些动作的回应
非监督学习是为了找到隐藏的结构,而强化学习是为了最大化收益。

增强学习的挑战

平衡探索和已知。
已知(exploit):已经被尝试过的很有效率的action
探索(explore): 还未尝试过的action

1.2 Examples

增强学习是最接近人学习方式的一种机器学习。生活中的例子有很多包括棋手下棋、机器人决定是否要去清扫某个房间等等。他们的共同点在于,他们采取的action会对环境产生影响,但都不知道自己现在采取的action会对之后产生什么影响,所以必须频繁观察环境,但是他们可以很容易知道自己是否在接近自己定下的目标。在所有的例子中,对象都可以通过不断获取经验来提高他们的表现。

1.3 Elements of Reinforcement Learning

策略(policy)

策略定义了学习者在某个时刻的表现。

回报信号(reward signal)

回报定义了增强学习问题的目标。增强学习的目标就是使得reward最大化,而reward signal就说明了某个action对于目标而言有利还是有害。
reward signal是更改policy的基础,如果回报低,下次遇到相同的情况,agent就会采取不同的action。

价值函数(value function)

一个状态的value是一个agent所有reward的总和。一般来说reward比value更重要。但是在评估一个action时我们往往会选择有比较高value的action,因为它带来的是长期的效益。

模型(model)

阐明环境将会如何表现。给定state和action,model会给出下一个state和返回的reward。利用models来解决增强学习的方法为model-based method,反之叫做model-free method。

1.4 Limitations and Scope

本书大部分都在讲如何得到value function

演化法(evolutionary methods)

不需要value function。让不同的agent采取不同的policy,再对reward进行评估,找到reward最大的policy。
对于policy比较小,有一定结构性,或有足够的时间进行搜索的情况比较友好。还对agent不能准确感知环境状态的情况比较有效。
总体比较没效率,本书一般不讨论

增强学习并不一定能达到最优

尝试最大化回报并不意味着可以得到最大回报。

1.5 An Extended Example: Tic-Tac-Toe

不利用value function的做法:

比如传统的minmax和之前的演化法

利用value function的做法:

  1. 建立一张数据表,每个数据都代表着在某个状态下获胜的可能性。
  2. 在一开始时将三个X在一排的value设为1,三个O在一排的value设为0,其他情况给予初始值0.5
  3. 进行多场游戏,大部分时候我们是选择value最大的下法,但是我们偶尔也随机选择走法,作为探索下法(exploratory moves)。
  4. 在贪心选择时,更新之前状态的value
    V(s)V(s)+α[V(s)V(s)]

    α是步长,这种更新方法称为temporal-difference
  5. 可以通过改变α慢慢趋向于0使得这个方法收敛到一个最优策略;也可以不改变α使得策略不断改变。

增强学习的主要特性:

  1. 在与环境交互时学习
  2. 有明确的目标,好的策略要求考虑到之前一些行为延后的回报。
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值