《AVID: Learning Multi-Stage Tasks via Pixel-Level Translation of Human Videos》阅读笔记
文章目录
前言:
算是这段时间review的第三篇文章了,果然在家的效率太低…
这篇paper去年年底就看到了,当时只是感觉做的东西有点炫酷,人的演示直接能转换为机器人的演示图,魔幻。
但是当时因为前置知识不够,很多细节看不懂,因此只能抛下了。
最近看了一些关于GAN相关的东西,再次看这篇文章,感触还是不一样的。
话说人的认知是真滴蛮有意思的。
参考链接:
好像没有找到中文关于这篇paper的阅读笔记,好在官方写了一个博客,以及介绍文档。
项目官方网站
CycleGAN-blog
另外,这个工作没有开源代码!!!
一. 论文简介
1. 作者:
Laura is a fourth-year undergraduate student studying Computer Science at UC Berkeley. I currently work with Professor Pieter Abbeel as a researcher in the Berkeley Artificial Intelligence Research (BAIR) Lab.
做的工作和强化,机器人,等相关。
2. 期刊杂志:
To appear at Robotics: Science and Systems (RSS), 2020. Project website: this https URL
大佬果然是大佬,竟然可以同时在NIPS和RSS。慕了慕了。
3. 引用数:
2,相关性比较高。
4. 论文背景,领域
演示学习
不管是不是项目做好了,再想出来的这个逻辑,还是真滴受到了人认知学习的启发。
作者提供的思路是这样的:看着别人做,人就会想着自己应该怎么操作,然后在自己操作,实现模仿学习。
这种模仿学习确实是厉害。
只需提供人类演示者的视频,即可定义一个复杂的多阶段任务,然后由机器人从人类演示视频中,想像出自己执行的操作,最终在原始图像观察中自动学习(其中强化学习部分,我还没弄明白)。
风格迁移(CycleGAN)
2017年GAN社区最好玩的一个项目,朱俊彦大佬的工作,朱俊彦大佬好像在伯克利也待过一段时间。
原理非常有意思。
如果数据集,有“成对”的数据,那么直接用普通的生成对抗就能胜任,但是很多情况下,是很难产生“成对”数据,毕竟采集这么多的数据简直要命。
这些不成对的图片,又有很多有价值的信息,该如何利用?
普通的生成对抗中,将源数据(X)的图片,映射到目标域数据(Y)中,X中的一张图,映射为Y中的任何一张图都可以,而且映射毫无规律,这明显不符合我们的需求。
我们需要保留一些原图基本特质(比如轮廓),再根据这些特征,恢复输入图片。
而这些特征,如果是无意义的,那也不成,我们还得保证,这些特征是符合目标域的分布,利用判别网络,就可以约束中间的特征。
就好像在百度翻译中,输入中文语句,翻译成英文,意思一定还要是那个意思,而不是随便来个ABC。最好是我们将英文再转为中文,中文的句子和原来的句子一致。
这里面就涉及一个概念:循环一致性!
关于循环一致性,我想了一周,终于大概说服了我自己,约束条件大概就是那样。
循环一致性用来保证留存原图的特征,判别网络用来约束生成图是目标域。
应用场景
根据人的演示,机器人可以想象“自身”如何操作任务,根据想象的视频流,直接进行模仿学习。
家庭机器人如果能有如此能力,将来的应用前景我是很向往的,简单教它一下,就能学会一项家务,能省多少事儿~
由于我现在还不熟悉基于模型的深度强化学习,所以这篇博客我只描述前面加粗的部分。
5. 一句话介绍论文解决的问题:
根据人的演示,机器人可以想象“自身”如何操作任务,根据想象的视频流,直接进行模仿学习。
二. 创新点和贡献:
根据人的演示,机器人可以想象“自身”如何操作任务,根据想象的视频流,直接进行模仿学习。
最惊艳的部分就是人机视频转换。
解决的机器人领域的问题是,将人的演示转为机器人的演示。省去了遥操作或者示教编程的过程,不需要机器人相关的领域只是,更符合人类的教学习惯。
三. 相关领域的概述(related work)
1. 模仿学习
模仿学习,一般指教机器人学习一个新的任务。
有行为克隆:提供机器人的状态和动作,直接有监督学习,训练一个状态–>动作的网络。
有强化学习:提供部分机器人状态和动作,训练一个初始智能体,再利用奖励函数去优化探索,其中奖励函数也可以通过演示的数据去学习一个网络。
本文采用的方案,是基于模型的强化学习方案,奖励函数是通过demo的数据预训练的,在训练过程中也会继续finetune。
但是这种强化如何利用demo的数据,我现在还不是非常的明确。
2. 风格迁移
朱俊彦大佬的cyclegan实在是厉害,我看之前的MIL(元模仿学习)这篇文章,人的demo和机器人的demo,每一个时间步的图片都是需要对应的!
这个对实验的要求可能会比较高。
然而风格迁移就不需要了。具体的原理看上面的博客就行了。
c. 作者的方案
方案过于复杂,不想写了。
主要的信息流(approach)
不写了。
limitations:
由于我现在还不清楚强化如何利用demo信息的,就先讲讲我能看到的局限性。
- 风格迁移的数据采集,和模型训练,不知道训练的时候有多少的坑,发邮件给作者小姐姐,小姐姐建议图片要大于256像素,每次的batch设为1,其他的坑我还没试过,也不知道。
- 需要人工设定各个子任务的完成图片,这个需要不少人为干预
- 人参与的时间还是很长的,演示的时间二十几分钟就算了,但是训练的三个小时,需要人在旁边时刻响应机器人的请求,以判定任务是否真的完成。
- 目前人机转换的gan模型只能一个任务归一个任务,不能训练一个通用的模型。作者说下一步会做这方面的工作,期待。
总结:
我现在就想试试风格迁移的效果,以及看看基于模型的强化学习。
毕竟levine大佬组里的真实机器人的实验,基本上都是基于模型的强化。