《AVID: Learning Multi-Stage Tasks via Pixel-Level Translation of Human Videos》阅读笔记

最新推荐文章于 2024-07-01 17:50:12 发布

hehedadaq

最新推荐文章于 2024-07-01 17:50:12 发布

阅读量354

点赞数 1

分类专栏：论文阅读笔记机器人 GAN 文章标签： cyclegan gan MPC 强化学习机器人

本文链接：https://blog.csdn.net/hehedadaq/article/details/106388682

版权

论文阅读笔记同时被 3 个专栏收录

22 篇文章 4 订阅

订阅专栏

机器人

12 篇文章 2 订阅

订阅专栏

GAN

2 篇文章 0 订阅

订阅专栏

《AVID: Learning Multi-Stage Tasks via Pixel-Level Translation of Human Videos》阅读笔记

前言：

算是这段时间review的第三篇文章了，果然在家的效率太低…
这篇paper去年年底就看到了，当时只是感觉做的东西有点炫酷，人的演示直接能转换为机器人的演示图，魔幻。
但是当时因为前置知识不够，很多细节看不懂，因此只能抛下了。
最近看了一些关于GAN相关的东西，再次看这篇文章，感触还是不一样的。
话说人的认知是真滴蛮有意思的。

参考链接：

好像没有找到中文关于这篇paper的阅读笔记，好在官方写了一个博客，以及介绍文档。
项目官方网站
 CycleGAN-blog

另外，这个工作没有开源代码！！！

一. 论文简介

1. 作者：

Laura is a fourth-year undergraduate student studying Computer Science at UC Berkeley. I currently work with Professor Pieter Abbeel as a researcher in the Berkeley Artificial Intelligence Research (BAIR) Lab.
做的工作和强化，机器人，等相关。
在这里插入图片描述

2. 期刊杂志：

在这里插入图片描述

To appear at Robotics: Science and Systems (RSS), 2020. Project website: this https URL

大佬果然是大佬，竟然可以同时在NIPS和RSS。慕了慕了。

3. 引用数：

2，相关性比较高。

4. 论文背景，领域

演示学习

不管是不是项目做好了，再想出来的这个逻辑，还是真滴受到了人认知学习的启发。
作者提供的思路是这样的：看着别人做，人就会想着自己应该怎么操作，然后在自己操作，实现模仿学习。
这种模仿学习确实是厉害。
只需提供人类演示者的视频，即可定义一个复杂的多阶段任务，然后由机器人从人类演示视频中，想像出自己执行的操作，最终在原始图像观察中自动学习（其中强化学习部分，我还没弄明白）。

风格迁移（CycleGAN）

2017年GAN社区最好玩的一个项目，朱俊彦大佬的工作，朱俊彦大佬好像在伯克利也待过一段时间。
原理非常有意思。
如果数据集，有“成对”的数据，那么直接用普通的生成对抗就能胜任，但是很多情况下，是很难产生“成对”数据，毕竟采集这么多的数据简直要命。
这些不成对的图片，又有很多有价值的信息，该如何利用？
在这里插入图片描述
普通的生成对抗中，将源数据（X）的图片，映射到目标域数据（Y）中，X中的一张图，映射为Y中的任何一张图都可以，而且映射毫无规律，这明显不符合我们的需求。
我们需要保留一些原图基本特质（比如轮廓）,再根据这些特征，恢复输入图片。
而这些特征，如果是无意义的，那也不成,我们还得保证,这些特征是符合目标域的分布，利用判别网络,就可以约束中间的特征。
就好像在百度翻译中，输入中文语句，翻译成英文，意思一定还要是那个意思，而不是随便来个ABC。最好是我们将英文再转为中文，中文的句子和原来的句子一致。
这里面就涉及一个概念：循环一致性！
在这里插入图片描述
关于循环一致性，我想了一周，终于大概说服了我自己，约束条件大概就是那样。
循环一致性用来保证留存原图的特征，判别网络用来约束生成图是目标域。

应用场景

根据人的演示，机器人可以想象“自身”如何操作任务，根据想象的视频流，直接进行模仿学习。
家庭机器人如果能有如此能力，将来的应用前景我是很向往的，简单教它一下，就能学会一项家务，能省多少事儿～
由于我现在还不熟悉基于模型的深度强化学习，所以这篇博客我只描述前面加粗的部分。

5. 一句话介绍论文解决的问题：

根据人的演示，机器人可以想象“自身”如何操作任务，根据想象的视频流，直接进行模仿学习。

二. 创新点和贡献：

根据人的演示，机器人可以想象“自身”如何操作任务，根据想象的视频流，直接进行模仿学习。
最惊艳的部分就是人机视频转换。
解决的机器人领域的问题是，将人的演示转为机器人的演示。省去了遥操作或者示教编程的过程，不需要机器人相关的领域只是，更符合人类的教学习惯。

三. 相关领域的概述(related work)

1. 模仿学习

模仿学习，一般指教机器人学习一个新的任务。
有行为克隆：提供机器人的状态和动作，直接有监督学习，训练一个状态–>动作的网络。
有强化学习：提供部分机器人状态和动作，训练一个初始智能体，再利用奖励函数去优化探索，其中奖励函数也可以通过演示的数据去学习一个网络。
本文采用的方案，是基于模型的强化学习方案，奖励函数是通过demo的数据预训练的，在训练过程中也会继续finetune。
但是这种强化如何利用demo的数据，我现在还不是非常的明确。

2. 风格迁移

朱俊彦大佬的cyclegan实在是厉害，我看之前的MIL(元模仿学习）这篇文章，人的demo和机器人的demo，每一个时间步的图片都是需要对应的！
这个对实验的要求可能会比较高。
然而风格迁移就不需要了。具体的原理看上面的博客就行了。

c. 作者的方案

方案过于复杂，不想写了。

主要的信息流（approach）

不写了。

limitations：

由于我现在还不清楚强化如何利用demo信息的，就先讲讲我能看到的局限性。

风格迁移的数据采集，和模型训练，不知道训练的时候有多少的坑，发邮件给作者小姐姐，小姐姐建议图片要大于256像素，每次的batch设为1，其他的坑我还没试过，也不知道。
需要人工设定各个子任务的完成图片，这个需要不少人为干预
人参与的时间还是很长的，演示的时间二十几分钟就算了，但是训练的三个小时，需要人在旁边时刻响应机器人的请求，以判定任务是否真的完成。
目前人机转换的gan模型只能一个任务归一个任务，不能训练一个通用的模型。作者说下一步会做这方面的工作，期待。