从虚拟到现实-迁移深度增强学习

1.深度增强学习是替代传统机器人控制方法的最有潜力方法!

       深度增强学习能够使机器人实现端到端的学习!但是,大家都知道的是,深度学习需要大量的样本,大量的实验,这用在图像识别上可以,但用在真实的机器人上几乎是不现实的。一方面是增强学习依靠大量的试错。但机器人一旦试错就直接坏了怎么办?另一方面造几十个上百个机器人来训练需要太多的资金了,即使是土豪如Google恐怕也承受不起! 所以,怎么办呢?两个出路:一个就是研究One-Shot Learning,也就是快速学习!如果机器人看一下人的演示就能很快学会动作,那OK。另一个出路就是迁移学习Transfer Learning!让机器人在仿真中学会,然后把知识迁移到真实的环境。大家可以想象,未来的虚拟场景肯定可以做到和真实的场景几乎一模一样!所以,只要能够迁移知识,那么在仿真中训练机器人是最佳途径!

2.迁移学习

       机器人迁移学习的成功意味着神经网络能够存储并提取“概念性”的东西!
什么意思呢?
       计算机已经能够存储和提取抽象的知识!
       让计算机直接存储感知信息比较简单,比如一幅图像,一段音频。
       但是,如何让计算机学会一件事情并且把“记忆”移植出来呢?
       这就好比科比打球不是很厉害吗?要是能把科比打球的记忆移植过来我们是不是就分分钟成为篮球高手了?
       但这到底有多难呢?这种问题恐怕几年前都没人敢想吧!计算机也可以做到吗?

       我们还是以打球来说明!首先这个打球记忆到底是如何存储的呢?没人知道,这段记忆有经验(怎么打),有概念(篮球,篮筐。。。),有感知(当前场景),有控制(肌肉运动)。简直不能再复杂了!我们完全无法分析到底大脑是怎么存储这些有具象,也有抽象的记忆。接下来,更困难的问题:大脑的记忆那么多,又要如何才能把打球的记忆给提取出来呢?要能够定位大脑的这部分记忆,要能够知道记忆的格式,看是JPG还是PNG。。。最后,还有能上传这部分记忆到新的大脑里!

       上面说的移植记忆的问题简直超出了大部分人可以想象的范围了!
       那么,计算机也可以吗?
       可以!

       仿真机械臂在仿真中训练了一个神经网络(“大脑”),接下来把神经网络连接到真实机械臂的神经网络(“大脑”),然后真实的机械臂在训练过程中,从仿真神经网络中提取了有用的信息(到底是什么不知道),然后大大加速和加强了真实机械臂的训练!

       我又重述了一下DeepMind的成果,但现在的感觉是不是要Oh My God了!
       这就是移植记忆的小Demo呀!

       我更乐意称这个工作为迁移深度增强学习,以表示和以前迁移学习的不一样,主要在于迁移的知识不一样了。相信这个工作的继续发展将带来重大的突破。

————————————————
引用资料:https://zhuanlan.zhihu.com/p/21470871

3.元学习

当前针对实验“元学习”的方法有很多,具体可以分为以下几类:
1、基于记忆Memory的方法。
基本思路:因为要通过以往的经验来学习,那就可以通过在神经网络中添加Memory来实验。

2、基于预测梯度的方法。
基本思路:Meta Learning的目的是实现快速学习,而实现快速学习的关键点是神经网络的梯度下降要准和快,那么就可以让神经网络利用以往的任务学习如何预测梯度,这样面对新的任务,只要梯度预测的准,那么学习就会快。

3、利用Attention注意力机制
基本思路:训练一个Attention模型,在面对新任务时,能够直接的关注最重要部分。

4、借鉴LSTM的方法
基本思路:LSTM内部的更新非常类似于梯度下降的更新,那么能否利用LSTM的结构训练处一个神经网络的更新机制,输入当前网络参数,直接输出新的更新参数

5、面向RL的Meta Learning方法
基本思路:既然Meta Learning可以用在监督学习,那么增强学习上又可以怎么做呢?能否通过增加一些外部信息的输入比如reward,和之前的action来实验。

6、通过训练一个base model的方法,能同时应用到监督学习和增强学习上
基本思路:之前的方法只能局限在监督学习或增强学习上,能否做出一个更通用的模型。

7、利用WaveNet的方法
基本思路:WaveNet的网络每次都利用了之前的数据,那么能否照搬WaveNet的方式来实现Meta Learning呢?就是充分利用以往的数据。

8、预测Loss的方法
基本思路:要让学习的速度更快,除了更好的梯度,如果有更好的Loss,那么学习的速度也会更快,因此,可以构建一个模型利用以往的任务来学习如何预测Loss
————————————————
引用资料:https://blog.csdn.net/qq_34886403/article/details/82664879

最前沿:百家争鸣的Meta Learning/Learning to learn
https://zhuanlan.zhihu.com/p/28639662

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值