《Reinforcement Learning: An introduction》第一章

最新推荐文章于 2022-03-02 14:57:11 发布

cherish_f

最新推荐文章于 2022-03-02 14:57:11 发布

阅读量984

点赞数 1

分类专栏： reinforcement learning 文章标签：强化学习 reinforcement learning

reinforcement learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

介绍

1.1 强化学习（Reinforcement Learning）

强化学习的特征

与监督学习（supervised learning）的区别

与非监督学习（unsupervised learning）的区别

难点与挑战

1.2 强化学习的要素

总结

介绍

Learning from interaction is a foundational idea underlying nearly all theories of learning and intelligence.

可以将强化学习类比于我们自然的学习过程。想象一个新生的婴儿与外界互动的情景，没有老师专门教它，但它会四处看看、动动手脚，通过各种尝试来探索世界。再比如我们学驾驶或者与人对话，我们会根据当前动作所获得的反应来随时调整自己的行为。

1.1 强化学习（Reinforcement Learning）

强化学习就是在学习做什么、怎样把situations映射到actions上，从而使reward最大化。学习者不会被指定采取哪个action，而是需要通过不断的尝试来探索哪个action能获得最大reward。actions不仅会影响当前的reward，也会对下一个状态、接下来的rewards都产生影响。（当然，这视具体情况而定，不同场景中，action对后续的reward的影响深远程度是不同的。）具体公式表示为： $Q(s1)=r2+\gamma \cdot r3+\gamma ^{2}\cdot r4+\gamma ^{3}\cdot r5+...$ 。涉及参数：γ(Gama)，γ是对未来reward的衰减值。比如γ=0时，Q(s1)=r2，即表示只在乎当前的reward。

强化学习经典示意图
from lecture "Introduction to reinforcement learning" given by d.silver

一个learning agent需具有的特点：

一定程度地感知其所在环境的状态；（sensation）
实施对环境状态产生影响的actions；（action）
有目标或者与环境状态相关的目标。（goal）

强化学习的特征

与监督学习（supervised learning）的区别

监督学习

强化学习

从已经被正确标记的训练集中学习

agent必须能够在探索中获得的经验，并从中学习

根据正确标记好的action集合，从而推测、产生对应于新的（训练集中没有的）状态下应该采取的正确action

（要让训练集包含能代表所有状态下正确的action，是不实际的）

与非监督学习（unsupervised learning）的区别

非监督学习

强化学习

在未标记的数据集中寻找隐藏的关联结构

（find hidden structure）

目的是使reward最大化

（maximize a reward signal）

都不依赖于正确标记好的数据集

此外，强化学习还有一个关键特征是，它确切地、从整体上考虑以目标为导向的（goal-directed）agent与未知环境交互的问题。与之相比，一些方法只单独考虑某个子问题，而没有阐明其如何应用到更大的框架中。

难点与挑战

权衡Exploration（探索未知）和exploitation（利用已知）间的平衡（exploration-exploitation dilemma）

Agent既要利用（exploit）其已有的经验来获得reward，又要探索（explore）没试过的action，从而能在未来做出更好的选择。Agent必须尝试各种actions，并且逐渐趋向于表现好的action。在一个随机任务中，每个action都需尝试很多次后，才能得到对其期望reward的可靠估计。

1.2 强化学习的要素

除了agent和environment外，强化学习有四个子要素：

a policy
a reward signal
a value function
a model of the environment (optionally)

总结

Reinforcement learning is a computational approach to understanding and automating goal-directed learning and decision making.

强化学习与其他计算方法的区别在于，它强调agent通过与环境的直接交互来进行学习，而不依赖于外界监督或是对环境进行完整的建模。

cherish_f

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
《Reinforcement Learning: An introduction》第一章

目录介绍1.1 强化学习（Reinforcement Learning）强化学习的特征与监督学习（supervised learning）的区别与非监督学习（unsupervised learning）的区别难点与挑战 1.2 强化学习的要素总结介绍Learning from interaction is a foundational ide...
复制链接

扫一扫