Reinforcement Learning：An Introduction 读书笔记- Chapter 1

最新推荐文章于 2022-10-12 03:17:33 发布

PeytonPu

最新推荐文章于 2022-10-12 03:17:33 发布

阅读量1.8k

点赞数 3

分类专栏： RL: An introduction 读书笔记文章标签：机器学习增强学习

RL: An introduction 读书笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Chapter1 The Reinforcement Learning Problem

Chapter1 The Reinforcement Learning Problem

增强学习：是一种从环境中进行学习的方法，它比起其他机器学习的方法更加目标导向并且着重交互。

1.1 Reinforcement Learning

增强学习学的是如何为场景选择动作(action),以便使得回报(reward)最大化
增强学习从一个完整(complete)，交互(interactive)，向目标努力的(goal-seeking)agent开始

增强学习的三大特征：

闭环(closed-loop)：之前选择的action会影响之后的输入
未告知哪个action可选：只能一个个尝试以得到最大的reward
影响深远：一个action不只影响到直接结果，可能对后续很长一段时间的结果都有影响。

增强学习不同于监督学习也不同于非监督学习

监督学习是通过一系列外部数据进行训练，使得整个系统可以推断出不存在于训练集中的一些动作的回应
非监督学习是为了找到隐藏的结构，而强化学习是为了最大化收益。

增强学习的挑战

平衡探索和已知。
已知(exploit)：已经被尝试过的很有效率的action
探索(explore): 还未尝试过的action

1.2 Examples

增强学习是最接近人学习方式的一种机器学习。生活中的例子有很多包括棋手下棋、机器人决定是否要去清扫某个房间等等。他们的共同点在于，他们采取的action会对环境产生影响，但都不知道自己现在采取的action会对之后产生什么影响，所以必须频繁观察环境，但是他们可以很容易知道自己是否在接近自己定下的目标。在所有的例子中，对象都可以通过不断获取经验来提高他们的表现。

1.3 Elements of Reinforcement Learning

策略(policy)

策略定义了学习者在某个时刻的表现。

回报信号(reward signal)

回报定义了增强学习问题的目标。增强学习的目标就是使得reward最大化，而reward signal就说明了某个action对于目标而言有利还是有害。
reward signal是更改policy的基础，如果回报低，下次遇到相同的情况，agent就会采取不同的action。

价值函数(value function)

一个状态的value是一个agent所有reward的总和。一般来说reward比value更重要。但是在评估一个action时我们往往会选择有比较高value的action，因为它带来的是长期的效益。

模型(model)

阐明环境将会如何表现。给定state和action，model会给出下一个state和返回的reward。利用models来解决增强学习的方法为model-based method，反之叫做model-free method。

1.4 Limitations and Scope

本书大部分都在讲如何得到value function

演化法(evolutionary methods)

不需要value function。让不同的agent采取不同的policy，再对reward进行评估，找到reward最大的policy。
对于policy比较小，有一定结构性，或有足够的时间进行搜索的情况比较友好。还对agent不能准确感知环境状态的情况比较有效。
总体比较没效率，本书一般不讨论

增强学习并不一定能达到最优

尝试最大化回报并不意味着可以得到最大回报。

1.5 An Extended Example: Tic-Tac-Toe

不利用value function的做法：

比如传统的minmax和之前的演化法

利用value function的做法：

建立一张数据表，每个数据都代表着在某个状态下获胜的可能性。
在一开始时将三个X在一排的value设为1，三个O在一排的value设为0，其他情况给予初始值0.5
进行多场游戏，大部分时候我们是选择value最大的下法，但是我们偶尔也随机选择走法，作为探索下法(exploratory moves)。
在贪心选择时，更新之前状态的value
$V (s) \leftarrow V (s) + α [V (s') - V (s)]$ $V(s) \gets V(s) + \alpha[V(s') - V(s)]$
α是步长，这种更新方法称为temporal-difference
可以通过改变α慢慢趋向于0使得这个方法收敛到一个最优策略；也可以不改变α使得策略不断改变。