俞扬:“审时度势”的高效强化学习

点击上方“深度学习大讲堂”可订阅哦!


编者按:强化学习,本质上是一种在环境中“审时度势”地学习策略的过程。AlpahGo和AlphaGo Zero的相继问世,证明了强化学习在模拟世界中的有效性。然而,现有的强化学习方法对样本量的需求极大、且利用率低,造成其难以在真实世界中应用。因此,如何提高强化学习的效率以应用于真实世界,进而打造真正的人工智能,是该领域的开放性问题。在本文中,来自南京大学的俞扬副教授,将从优化、方法论、模拟器等角度,介绍他近年来在高效强化学习中的一些探索。文末,大讲堂特别提供文中提到所有文章的下载链接。


我今天主要介绍最近在强化学习方面一些初步的探索。

我们认为强化学习是有智商的动物都能做到的事情。举个例子,人类实际上没有办法与狗直接用语言交流,所以通过食物的诱导来训练它,比如当狗趴下(达到我们的目的)才给予它食物(奖赏),大概历经半个小时就可以训练一只幼犬听懂“趴下”。从狗的视角来看,它并不了解所处的环境,但能够通过大量尝试学会如何适应这个环境。


所谓强化学习,就是希望计算机能做出同样的事情——机器能够自主和环境交互,观察环境的反馈并学会适应环境。因此,在很多场合强化学习常被称为“真正的人工智能”,因为这个理想过程是没有人为干预的,完全在环境中进行自主学习。


如果把这个过程抽象出来,计算机和环境交互需要几个要素:首先,智能体需要做出一些决策以在环境里执行,以狗为例,它会做出一些动作,这个动作和环境是相互交互的,在做决策后环境会发生一些变化,同时能够观察到环境给的奖赏以及环境的状态,比如狗能够观察饲养员的行为语言(环境的状态),并将吃到的零食作为给它的奖赏。


智能体内部的结构就是一个策略,根据观察到的环境状态做出决策,这个策略类似于监督学习里的模型,其目标是最大化长期得到的回报,比如狗长期吃到的食物最多。

强化学习和经典的监督学习相比,有很多相似之处以及本质上的差异。对于相似之处,比如强化学习的策略模型和监督学习的分类或者预测模型看起来本身是一样的。不同之处在于它们完成的事情是不一样的,并且在监督学习中,假设数据是独立同分布的,预测数据和训练数据的分布是一致的。但在强化学习中,这个基本的假设是不成立的,因为智能体在环境里决策,这个决策会不断改变环境,从环境中收集的数据也会不断变化。

由于环境的不同,强化学习的方法也是不同于监督学习的。经典的方法有两类,第一类,是对值函数的学习。用类似于动态规划的方法求解长期的奖赏回报,然后通过估计当前状态下动作的回报值的大小做策略。传统的Q-learning等算法都属于基于值函数的算法,其学习目标是值函数。这类方法有可能存在策略退化问题,所谓策略退化,是指实际想要得到的是策略,但是学习的是值函数,而不是策略本身。特别当模型的表达能力不足时,这种现象很容易出现。

第二类,是策略梯度方法,这类方法近来更受欢迎,和现在的监督学习方法更加接近。首先将策略参数化,如果是离散输出的策略,表达出来可能和对率回归(logistic regression)差不多,我们称之为Gibbs策略,这里用线性模型来表达;如果是连续输出的策略,则采用高斯策略来表达。表达出策略后再把学习的总体目标表达出来,由于策略表达是可微的,因此目标表达也是可微的,所以可以用梯度方法来求解参数。这类方法求解目标是策略本身,因此在复杂任务上表现得相对更好。

这是一些与强化学习相关的例子。从2015年Deepmind设计的deep Q-network算法开始,强化学习和深度学习更加紧密结合。深度学习在此扮演强化学习的眼睛,比如在Atari游戏上,他们以游戏屏幕像素作为卷积神经网络的输入,然后自己学习如何来操作游戏使得分值最大化,这个工作使深度强化学习备受关注。借助深度学习,强化学习处理输入的能力更强。

AlphaGo系统其实也用到了深度强化学习。它的策略网络是通过强化学习学出来的。之后AlphaGo Zero和AlphaZero更新的系统里面,对强化学习的强调越来越重。

强化学习在现实社会的应用还很少,其中一个原因是目前强化学习对样本量的需求过大。以Atari游戏为例,玩这个简单的游戏需要多少样本来训练呢?从AAAI2016的Double DQN的工作中可以看出,即使对于两亿的训练数据量,其性能增长曲线还没有完全收敛。也就是说,目前的强化学习方法,无论基于值函数还是基于策略梯度,对于样本的需求量都极其大,在真实物理环境中的应用很难得到满足。作为对比,让狗听懂“趴下”需半个小时,这个过程大概有二十左右个样本,由此可见机器强化学习的学习能力目前还和生物强化学习能力有很大差距。也就是说目前强化学习方法的样本利用率很低,这种低效可能来源于优化能力、方法论等多个方面的局限。

在本次报告中,我将汇报在其中三个方面的一些研究,第一个方面是关于优化的;第二个方面是目标表达;第三个方面是模拟器。


optimization


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值