《AVID: Learning Multi-Stage Tasks via Pixel-Level Translation of Human Videos》阅读笔记

《AVID: Learning Multi-Stage Tasks via Pixel-Level Translation of Human Videos》阅读笔记

前言:

算是这段时间review的第三篇文章了,果然在家的效率太低…
这篇paper去年年底就看到了,当时只是感觉做的东西有点炫酷,人的演示直接能转换为机器人的演示图,魔幻。
但是当时因为前置知识不够,很多细节看不懂,因此只能抛下了。
最近看了一些关于GAN相关的东西,再次看这篇文章,感触还是不一样的。
话说人的认知是真滴蛮有意思的。

参考链接:

好像没有找到中文关于这篇paper的阅读笔记,好在官方写了一个博客,以及介绍文档。
项目官方网站
CycleGAN-blog

另外,这个工作没有开源代码!!!

一. 论文简介

1. 作者:

Laura is a fourth-year undergraduate student studying Computer Science at UC Berkeley. I currently work with Professor Pieter Abbeel as a researcher in the Berkeley Artificial Intelligence Research (BAIR) Lab.
做的工作和强化,机器人,等相关。
在这里插入图片描述

2. 期刊杂志:

在这里插入图片描述

To appear at Robotics: Science and Systems (RSS), 2020. Project website: this https URL

大佬果然是大佬,竟然可以同时在NIPS和RSS。慕了慕了。

3. 引用数:

2,相关性比较高。

4. 论文背景,领域

演示学习

不管是不是项目做好了,再想出来的这个逻辑,还是真滴受到了人认知学习的启发。
作者提供的思路是这样的:看着别人做,人就会想着自己应该怎么操作,然后在自己操作,实现模仿学习。
这种模仿学习确实是厉害。
只需提供人类演示者的视频,即可定义一个复杂的多阶段任务,然后由机器人从人类演示视频中,想像出自己执行的操作,最终在原始图像观察中自动学习(其中强化学习部分,我还没弄明白)。

风格迁移(CycleGAN)

2017年GAN社区最好玩的一个项目,朱俊彦大佬的工作,朱俊彦大佬好像在伯克利也待过一段时间。
原理非常有意思。
如果数据集,有“成对”的数据,那么直接用普通的生成对抗就能胜任,但是很多情况下,是很难产生“成对”数据,毕竟采集这么多的数据简直要命。
这些不成对的图片,又有很多有价值的信息,该如何利用?
在这里插入图片描述
普通的生成对抗中,将源数据(X)的图片,映射到目标域数据(Y)中,X中的一张图,映射为Y中的任何一张图都可以,而且映射毫无规律,这明显不符合我们的需求。
我们需要保留一些原图基本特质(比如轮廓),再根据这些特征,恢复输入图片。
而这些特征,如果是无意义的,那也不成,我们还得保证,这些特征是符合目标域的分布,利用判别网络,就可以约束中间的特征。
就好像在百度翻译中,输入中文语句,翻译成英文,意思一定还要是那个意思,而不是随便来个ABC。最好是我们将英文再转为中文,中文的句子和原来的句子一致。
这里面就涉及一个概念:循环一致性!
在这里插入图片描述
关于循环一致性,我想了一周,终于大概说服了我自己,约束条件大概就是那样。
循环一致性用来保证留存原图的特征,判别网络用来约束生成图是目标域。

应用场景

根据人的演示,机器人可以想象“自身”如何操作任务,根据想象的视频流,直接进行模仿学习。
家庭机器人如果能有如此能力,将来的应用前景我是很向往的,简单教它一下,就能学会一项家务,能省多少事儿~
由于我现在还不熟悉基于模型的深度强化学习,所以这篇博客我只描述前面加粗的部分。

5. 一句话介绍论文解决的问题:

根据人的演示,机器人可以想象“自身”如何操作任务,根据想象的视频流,直接进行模仿学习。

二. 创新点和贡献:

根据人的演示,机器人可以想象“自身”如何操作任务,根据想象的视频流,直接进行模仿学习。
最惊艳的部分就是人机视频转换。
解决的机器人领域的问题是,将人的演示转为机器人的演示。省去了遥操作或者示教编程的过程,不需要机器人相关的领域只是,更符合人类的教学习惯。

三. 相关领域的概述(related work)

1. 模仿学习

模仿学习,一般指教机器人学习一个新的任务。
有行为克隆:提供机器人的状态和动作,直接有监督学习,训练一个状态–>动作的网络。
有强化学习:提供部分机器人状态和动作,训练一个初始智能体,再利用奖励函数去优化探索,其中奖励函数也可以通过演示的数据去学习一个网络。
本文采用的方案,是基于模型的强化学习方案,奖励函数是通过demo的数据预训练的,在训练过程中也会继续finetune。
但是这种强化如何利用demo的数据,我现在还不是非常的明确。

2. 风格迁移

朱俊彦大佬的cyclegan实在是厉害,我看之前的MIL(元模仿学习)这篇文章,人的demo和机器人的demo,每一个时间步的图片都是需要对应的!
这个对实验的要求可能会比较高。
然而风格迁移就不需要了。具体的原理看上面的博客就行了。

c. 作者的方案

方案过于复杂,不想写了。

主要的信息流(approach)

不写了。

limitations:

由于我现在还不清楚强化如何利用demo信息的,就先讲讲我能看到的局限性。

  1. 风格迁移的数据采集,和模型训练,不知道训练的时候有多少的坑,发邮件给作者小姐姐,小姐姐建议图片要大于256像素,每次的batch设为1,其他的坑我还没试过,也不知道。
  2. 需要人工设定各个子任务的完成图片,这个需要不少人为干预
  3. 人参与的时间还是很长的,演示的时间二十几分钟就算了,但是训练的三个小时,需要人在旁边时刻响应机器人的请求,以判定任务是否真的完成。
  4. 目前人机转换的gan模型只能一个任务归一个任务,不能训练一个通用的模型。作者说下一步会做这方面的工作,期待。

总结:

我现在就想试试风格迁移的效果,以及看看基于模型的强化学习。
毕竟levine大佬组里的真实机器人的实验,基本上都是基于模型的强化。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hehedadaq

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值