David Silver 强化学习Lecture1:Introduction

    David Silver 强化学习系列博客的内容整理自David Silver 强化学习的PPT和知乎叶强强化学习专栏。

1 About Reinforcement Learning

    强化学习是多学科多领域交叉的一门学问,它属于机器学习三个分支(监督学习、无监督学习、强化学习)中的一个单独的分支。简单来讲,强化学习的本质是解决decision making问题,即学会自动进行决策。具体来说,强化学习是一个Sequential Decision Making问题(连续决策),它需要连续选择一些行为,这些行为完成后期望能够得到最大的收益/最好的结果。它在没有任何label告诉算法应该怎么做的情况下,通过先尝试做出一些行为得到一个结果,通过判断这个结果是对还是错,来对之前的行为进行反馈,然后由这个反馈来调整之前的行为,通过不断的调整,算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。
    强化学习不同于监督学习,它们之间有所差别。监督学习 vs 强化学习 区别主要体现在以下几个方面:
1. supervisor/reward signal:监督学习是有监督者的,即有一个label的,这个label告诉算法什么样的输入对应着什么样的输出;而强化学习没有label告诉它在某种情况下应该做出什么样的行为,只有一个做出一系列行为后最终反馈回来的reward signal,这个signal能判断当前选择的行为是好是坏。
2. Feedback is instantaneous/delayed:监督学习中,如果做了比较坏的选择会立刻反馈给算法;而强化学习reward signal不一定是实时的,而很可能是延后的,有时甚至延后很多。强化学习中,可能需要在经历很多步之后,才能知道这是一个正确的决策还是一个错误的决策。
3. i.i.d data / sequential data:监督学习中,数据是独立同分布的,只要把数据丢给机器,让机器自己学习就可以了;而强化学习中,面对的输入数据是时间(序列)数据,即输入不断在变化。不满足独立同分布的性质。因此,强化学习需要应对的是一个动态的系统,agent要和外部环境进行交互,每一个举措都在影响着下一步的行动。
4. agent actions affect the subsequent data:强化学习中,当前的行为影响后续接收到的数据。agent根据环境影响来采取措施,应对环境变化。agent的每一步措施都会影响到它所接受的数据。

2 The Reinforcement Learning Problem

2.1 Rewards

    Rewards奖励,以下记做 Rt R t t t 代表经过一个时间步)。它仅仅是反馈信号,是一个标量。每经过一个时间步 t 都会产生一个反馈信号 Rt R t 。这个 Rt R t 衡量了 agent a g e n t 在每一个步骤里采取的的行动做得怎么样。而强化学习优化的目标就是将每一步的奖励累加起来,尽可能地使奖励的总价值达到最大。
    强化学习主要基于这样的”奖励假设”:所有问题解决的目标都可以被描述成最大化累积奖励。
这里写图片描述
    对于不同的任务,agent所处的环境,采取的行为,每个行为得到的奖励都是不同的,根据任务而定。强化学习的目标就是建立一个统一的框架,使用机器学习的方法解决问题。这样,我们就可以使用相同的形式来应对各种各样不同的问题。
    举一些Rewards的例子来说:比如在直升机的特技表演中,当直升机符合期望的轨迹,就会得到正向的奖励;直升机坠落的时候会有巨大的惩罚。在机器人行走的例子中,当机器人向前每运动一个单位距离,就获得正向奖励;摔倒的时候获得负向奖励。

Sequential Decision Making

    如何才能定义一个适用于所有问题的统一框架?和刚才讲的一样,这是一个序列决策问题。每一个任务里面的目标可以统一成:通过一些action,最大化未来的奖励。需要注意的是,我们需要提前计划,考虑未来。因为即时的action造成的影响可能不是我们想要的结果,但是经过几步之后就可能变成了我们想要的结果。这也就意味着你可能需要放弃当前一些好的奖励,而在不久的将来则会得到更高的奖励。应该目光长远。

2.2 Agent

这里写图片描述
    如上图,我们可以把Agent想象成图中的大脑,我们希望在这个大脑中创建一个算法。这个agent会采取行动,比如说:控制机器人该如何行走/如何下棋。agent采取的每一步行动都是基于它当前所获得的信息(信息包括observation和reward)。每采取一步行动就会看到新的外部环境,就像一个机器人使用照相机,每走一步都对外部世界进行快照,来分析有什么改变的地方。采取行动了之后就会得到一个奖励信号,用来判断当前采取行动的好坏。所以agent都会有两个输入,一个是对外界的观察 Ot O t ,一个是奖励信号 Rt R t 。这些输入共同决定了下一步的行动 At A t

2.3 Environment

这里写图片描述
    如上图,我们可以把Environment想象成图中的地球。一边是大脑agent;一边是地球Environment。我们可以把agent与Environment的交互看成一个循环。agent每采取一步行动,Environment会发生变化,新的Environment对应的产生observation(对外部世界的一个快照)和reward。agent只能通过采取行动来影响环境。
    强化学习是基于观察/奖励/行动的时间序列。这个时间序列就代表着agent的经验。这个经验就是用于强化学习的数据。
    简单总结:
    强化学习需要构造出一个agent(大脑),agent能够执行某个action,例如决定机器人朝哪个方向走,围棋棋子下在哪个位置。
    agent能够接收当前环境的一个observation,例如当前机器人的摄像头拍摄到场景。agent还能接收当它执行某个action后的reward,即在第 t t 步agent的工作流程是执行一个动作 A t ,获得该动作执行之后的环境观测状况的变化 Ot O t ,以及获得这个动作的反馈奖赏

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值