浅谈强化学习一

强化学习(reinforcement learning),无监督学习和有监督学习之外的第三种机器学习方式,将其单独割裂出来是因为它既不像无监督学习那样仅凭数据就去学习挖掘那样,也不像有监督学习那样依靠标签和先验知识进行学习。那它到底是怎么学习的呢?这也是它最牛逼的地方,它不仅可以学习自己的经验,也可以学习别人的经验,更有甚者学习还未发生的事件。也因为这一特性,它就在AI史上留下的浓重的一笔。远的不说就说昨天OpenAI Five这一强大的系统以2:0的战绩打败了DOTA2的世界冠军OG,靠的就是深度强化学习。另外推荐一份基于深度强化学习的目标追踪相关资料:https://github.com/abhineet123/Deep-Learning-for-Tracking-and-Detection/tree/master/deep_reinforcement_learning,还有最近拜读的将强化学习用于目标追踪的大作End-to-end Active Object Tracking and Its Real-world Deployment via Reinforcement Learning,集国内大佬的佳作:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8642452有时间会细致分析一下这篇文章。

要学习强化学习,首先要弄懂五个名词:智能体(Agent)、状态(State)、环境(Environment)、动作(Action)、奖赏(reward)。

强化学习类比于有监督学习就好比于教师与书本。书本是死的(相当于样本),里边的内容一经完成,其内容就不会改变,一种输入对应于一种输出,严格规定了样本,学生(有监督学习的模型,强化学习的智能体)对于书本的学习取决于学生自身,自身的性能越好,学出来的效果也就越好。教师是活的(相当于强化学习中的环境),他对于学生(智能体)不同的状态所做的反馈(奖赏)是不同的,学生最后的学习效果不仅取决于学生自身,而且取决于其他几个因素,比如老师的教学水平有高有低,在强化学习过程中教师的水平有以下几个方面:1)对学生学习动作的认识,一个教师对学生学习动作的认知不可能是全知全能的,有局限性,对于很多学习动作,教师也无法准确的理解,也就是说强化学习中环境对于智能体的动作的观测不一定是完全的;2)对学习动作的反馈,教师水平有限,对于一些学习动作教师无法做出合理的奖赏是无法避免的,也就是强化学习中环境对智能体的奖赏不一定是最合理的。说了这么多教师,现在我要告诉你要学习的强化学习方法与教师的关系不大,因为目前所存在的技术中,环境一般都是事先定义好的,也就是说教师的水平在强化学习中是无法改变的,那么问题来了,我们能做什么,强化学习做的是什么?

首先我们还是谈一下5个名词吧:

先上一张图,表示它们之间的关系吧:

智能体:学习的主体,可能是一个模型,一张表格,他生活在一个状态下,在这个状态下他可以执行相应动作。他的输入是观测值(相当于对当前状态观测,这些可以使当前状态的特征值)和奖赏(由环境依据智能体的动作而给予的回报),这些相当于有监督学习的样本与标签,这些样本可以是一维数组,二维图像,以及无穷维的数据。在强化学习不断的迭代过程中,不断去更新这些观测值与奖赏,形成一个记忆池,也就是有监督学习的样本集。

动作:智能体可以进行的动作,通常是预先定义好的,是一个有界的行为空间,好比与学生上课时间的举手提问,记笔记,认真听等等动作。

环境(教师):同样是预先定义好的,他对于学生的每一个动作,有时还会结合当前的状态对该动作作出奖赏。

奖赏:通常是一些实际的值,相当于样本集中的标签。

状态:可以是智能体的状态,也可以是环境的状态,也可以是他们的综合状态,这个也是最终的一个评价标准,当智能体到达,或者是智能体驱使环境到达某种状态时,可以视为强化学习完成。

观测:依据状态得到的一些特征,这些特征可以是各种各样的数据。作为智能体的输入,相当于样本集中的样本特征。

那么现在可以说强化学习是学习当前状态达到最终状态的方法。在这个过程当中,智能体不断的进行一些动作去尝试改变状态,而环境依据这些动作及状态对智能体作出一个奖赏,促使达到最终态。可以这么说,强化学习学习的是一个关于当前状态下动作与奖赏的对应关系,这个关系可以是表格也可以是模型,之后依照这个关系对智能体作出动作指导。

下面画张图说明一下我的理解,有不对和不足的地方希望看到的大佬指正:

上图中的所有动作来源于同一个集合,这个动作可以重复。强化学习模型一旦训练好的话就脱离了教师的指导和奖赏。

以上就是我对强化学习的一些理解,具体模型算法等等以后会继续和大家分享。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值