梳理 | 机器人学习(Robot Learning)的发展

机器人学习这个话题上,在这个领域做出最重要贡献的是加州伯克利大学的Pieter Abbeel和Sergey Levine团队,几乎可以说他们以一个团队之力开拓了机器人学习这个领域。 梳理一下机器人学习这两年发展过程中出现的一些有影响力的paper。
Robot Learning就是面对Robot这种实体机器人本身。Robot Learning想要解决的核心问题是让机器人能够自己学会执行各种决策控制任务,比如叠衣服,拿东西,开门之类的问题。对于这类问题,更多的需要对机器人进行底层的连续控制,而不是最顶层的决策。可以认为开门本身就是一个决策指令。
机器人涵盖的范围很广,对机器人智能的描述更是很难界定。实际上计算机视觉、语音识别、NLP、机器人控制这些都是机器人智能的一个分支,最终都会集成到机器人身上。
现在的情况就是计算机视觉和语音识别这种感知任务通过深度学习已经解决得不错了, 从总的趋势看,短期低端的NLP会较快取得突破,比如购物机器人、咨询机器人之类,虽然还是通过不了图灵测试,但是却能满足需求,能够实际应用;中期需要Robot Learning的突破,使得真正的实体机器人能够落地;远期才是NLP与Robot Learning的结合,达到从顶层思辨情绪到底层行为的高度智能。
这里显然主要关注Deep Learning在Robot Learning上的使用。我们希望用一个端到端的神经网络就能实现机器人的控制,输入看到的图像,输出机器人各个关节的电机控制。
这里Robot Learning专指基于Deep Learning面向解决机器人实际决策与控制任务的一个小方向。
Robot Learning的发展路径
利用传统的控制算法结合深度学习来实现机器人端到端的控制。这个方法主要是以Guided Policy Search(GPS)为首。这个方法是Sergey Levine提出的,通过与传统方法结合,确实可以让机器人学习出一些有意思的技能,但是有个根本问题摆在面前,就是传统方法通常需要知道整个系统的模型,而这在实际的机器人中非常难以适用。就比如四轴飞行器的控制,我们可以通过外部的Vicon设备来精确的定位四轴飞行器的位置,从而实现对其精确控制,但是在户外,我们根本就做不到这点,也就无法精确建模。因此,还依赖传统方法是没有出路的,我们使用深度学习就是要抛弃传统方法的弊端。
深度增强学习DRL。由于DeepMind在DRL取得了巨大成功,而DRL就是面向决策与控制问题,特别适用于机器人,因此想在机器人上使用DRL是一种必然的想法。Google Brain团队(依然以Sergey Levine为首)做出了一些进展,在我们之前的专栏文章中也有分析谷歌的协作机械臂>>https://zhuanlan.zhihu.com/p/22758556。但是在使用DRL之后,DRL的弊端也就显现出来了,那就是需要大量的尝试来获取数据。对于这个问题,在机器人仿真环境还好,但是在真实的机器人上就根本没办法这么做了。为了解决这个问题,也就引出来下面两个研究思路。
迁移学习Transfer Learning。既然在真实环境不行,而仿真环境可以,那么是不是可以先在仿真环境中训练好,再把知识迁移到真实机器人上。Google Deepmind在这一块做了一些不错的工作,提出了ProgressiveNeural Net和PathNet,验证了迁移的可能性。而且很显然的,仿真环境越真实,迁移效果会越好。那么,搞一个非常仿真的环境就非常有意义了。这不,Nvidia 刚刚推出Isaac机器人模拟系统,确实是对Robot Learning的研究注入了一剂强心剂。
Imitation Learning 模仿学习/Few Shot Learning 少样本学习/ Meta Learning 学会学习。这是另一条思路,那就是尽量减少数据的使用量。我们如果能够教机器人几次机器人就能学会技能那么问题也能解决。而这一块也就是OpenAI (依然是Sergey Levine)那帮人在如火如荼的研究的方向。而且特别是Meta Learning,直指通用人工智能的核心。如果能够在Meta Learning上取得突破,那么本身会是革命性的。
Robot Learning发展到这里,把研究的方向就聚焦到第三和第四点上了,并且也取得了一定的成果,但是显然还有非常多的工作可以去做。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值