通俗讲解强化学习!

 Datawhale干货 

作者:知乎King James,伦敦国王大学

知乎 | https://www.zhihu.com/people/xu-xiu-jian-33

前言:强化学习这个概念是2017年Alpha Go战胜了当时世界排名第一的柯洁而被大众知道,后面随着强化学习在各大游戏比如王者荣耀中被应用,而被越来越多人熟知。王者荣耀AI团队,甚至在顶级期刊AAAI上发表过强化学习在王者荣耀中应用的论文。那么强化学习到底是什么,如何应用?下面和大家分享我对强化学习的整个过程,以及强化学习目前在工业界是如何应用的,欢迎沟通交流。

09af2d65c8992d8be561fc60220a0795.png

1 简介强化学习

5cc7c0fd87f411e641d6026c9152ba83.png

强化学习是机器学习的一个分支。

1.1 什么是强化学习

83c704cf33576908c5afd32f8a27cc6a.png

强化学习是一种机器学习的学习方式(四种主要的机器学习方式解释见上图)。

5d2ec7de0a0ab3c4f33645bf8f2a9ed8.png

上图没有提到深度学习,是因为从学习方式层面上来说,深度学习属于上述四种方式的子集。而强化学习是独立存在的,所以上图单独列出强化学习,而没有列出深度学习。

强化学习和其他三种学习方式主要不同点在于:强化学习训练时,需要环境给予反馈,以及对应具体的反馈值。它不是一个分类的任务,不是金融反欺诈场景中如何分辨欺诈客户和正常客户。强化学习主要是指导训练对象每一步如何决策,采用什么样的行动可以完成特定的目的或者使收益最大化。

比如AlphaGo下围棋,AlphaGo就是强化学习的训练对象,AlphaGo走的每一步不存在对错之分,但是存在“好坏”之分。当前这个棋面下,下的“好”,这是一步好棋。下的“坏”,这是一步臭棋。强化学习的训练基础在于AlphaGo的每一步行动环境都能给予明确的反馈,是“好”是“坏”?“好”“坏”具体是多少,可以量化。强化学习在AlphaGo这个场景中最终训练目的就是让棋子占领棋面上更多的区域,赢得最后的胜利。

打一个不是很恰当的比喻,有点像马戏团训猴一样。

d1638b6306b661064924fa20205d75fd.png

驯兽师敲锣,训练猴站立敬礼,猴是我们的训练对象。如果猴完成了站立敬礼的动作,就会获得一定的食物奖励,如果没有完成或者完成的不对,就没有食物奖励甚至是鞭子抽打。时间久了,每当驯兽师敲锣,猴子自然而然地就知道要站立敬礼,因为这个动作是当前环境下获得收益最大的动作,其他动作就不会有食物,甚至还要被鞭子抽打。(https://bbs.hupu.com/36347293.html 这里有一篇耍猴的报道,有强化学习的味道)

强化学习的灵感来源于心理学里的行为主义理论

  • 一切学习都是通过条件作用,在刺激和反应之间建立直接联结的过程。

  • 强化在刺激一反应之间的建立过程中起着重要的作用。在刺激一反应联结中,个体学到的是习惯,而习惯是反复练习与强化的结果。

  • 习惯一旦形成,只要原来的或类似的刺激情境出

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值