《Reinforcement Learning: An introduction》第一章

目录

介绍

1.1 强化学习(Reinforcement Learning)

强化学习的特征 

  与监督学习(supervised learning)的区别 

  与非监督学习(unsupervised learning)的区别 

难点与挑战 

1.2 强化学习的要素

总结


介绍

Learning from interaction is a foundational idea underlying nearly all theories of learning and intelligence.

可以将强化学习类比于我们自然的学习过程。想象一个新生的婴儿与外界互动的情景,没有老师专门教它,但它会四处看看、动动手脚,通过各种尝试来探索世界。再比如我们学驾驶或者与人对话,我们会根据当前动作所获得的反应来随时调整自己的行为。

1.1 强化学习(Reinforcement Learning)

强化学习就是在学习做什么、怎样把situations映射到actions上,从而使reward最大化。学习者不会被指定采取哪个action,而是需要通过不断的尝试来探索哪个action能获得最大reward。actions不仅会影响当前的reward,也会对下一个状态、接下来的rewards都产生影响。(当然,这视具体情况而定,不同场景中,action对后续的reward的影响深远程度是不同的。)具体公式表示为:Q(s1)=r2+\gamma \cdot r3+\gamma ^{2}\cdot r4+\gamma ^{3}\cdot r5+...。涉及参数:γ(Gama),γ是对未来reward的衰减值。比如γ=0时,Q(s1)=r2,即表示只在乎当前的reward。

强化学习经典示意图
from lecture "Introduction to reinforcement learning" given by d.silver

 一个learning agent需具有的特点:

  1. 一定程度地感知其所在环境的状态;(sensation)
  2. 实施对环境状态产生影响的actions;(action)
  3. 有目标或者与环境状态相关的目标。(goal)

强化学习的特征 

  与监督学习(supervised learning)的区别 

监督学习强化学习
从已经被正确标记的训练集中学习agent必须能够在探索中获得的经验,并从中学习

根据正确标记好的action集合,从而推测、产生对应于新的(训练集中没有的)状态下应该采取的正确action

(要让训练集包含能代表所有状态下正确的action,是不实际的)

  与非监督学习(unsupervised learning)的区别 

非监督学习强化学习

在未标记的数据集中寻找隐藏的关联结构

(find hidden structure)

目的是使reward最大化

(maximize a reward signal)

都不依赖于正确标记好的数据集

此外,强化学习还有一个关键特征是,它确切地、从整体上考虑以目标为导向的(goal-directed)agent与未知环境交互的问题。与之相比,一些方法只单独考虑某个子问题,而没有阐明其如何应用到更大的框架中。

难点与挑战 

权衡Exploration(探索未知)和exploitation(利用已知)间的平衡(exploration-exploitation dilemma)

Agent既要利用(exploit)其已有的经验来获得reward,又要探索(explore)没试过的action,从而能在未来做出更好的选择。Agent必须尝试各种actions,并且逐渐趋向于表现好的action。在一个随机任务中,每个action都需尝试很多次后,才能得到对其期望reward的可靠估计。

1.2 强化学习的要素

除了agent和environment外,强化学习有四个子要素:

  • a policy
  • a reward signal
  • a value function
  • a model of the environment (optionally)

总结

Reinforcement learning is a computational approach to understanding and automating goal-directed learning and decision making.

 强化学习与其他计算方法的区别在于,它强调agent通过与环境的直接交互来进行学习,而不依赖于外界监督或是对环境进行完整的建模。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值