为什么强化学习里很少有预训练模型？

最新推荐文章于 2024-07-10 08:54:44 发布

人工智能与算法学习

最新推荐文章于 2024-07-10 08:54:44 发布

阅读量551

点赞数 1

文章标签：人工智能大数据机器学习深度学习编程语言

原文链接：https://mp.weixin.qq.com/s?__biz=MzIyOTkyOTEzOQ==&mid=2247496780&idx=1&sn=78efe4e7b99a192113564a2530661e2e&chksm=e8b98d90dfce0486012203f603e6d36e0088b74d0eb8f3c49866f7a33191ef9449b5c0278c87&scene=126&&sessionid=0

版权

提问：

在NLP和CV领域中都存在一些非常出名的预训练模型（例如BERT和ResNet），但好像没有太听说强化学习里有类似于这种的backbone呢？

对于预训练需要庞大训练数据集的问题，我理解CV中有ImageNet，NLP有MLM，而强化学习作为一门完全不用担心缺乏预训练数据的学科，按道理来讲应该更容易出一个预训练模型才对呀？

我不清楚是不是我没有了解到Pretrain RL相关的信息，如果有类似的工作希望可以分享一下，感谢~

周博磊（UCLA 助理教授）回答：

主要还是看任务复杂度。atari，mujoco等在同一个环境下训练测试的学习到的表征基本都是overfitting，几层全连接网络就成了，没见过更复杂的网络，所以也不需要pretraining。如果是图片作为输入的任务更需要预训练。而且，强化学习里面的预训练设计并不在backbone结构如何，而是预训练任务本身如何设计。

最近我们有一篇ECCV‘22工作做policy表征的预训练。从网上下载的大量驾驶视频（如下图所示）进行自监督表征学习，然后把训练好的表征迁移到Carla模拟器进行视觉驾驶的强化学习任务训练，可以得到比MoCoV2以及ImageNet-pretrained weight更好的效果。

Learning to Drive by Watching YouTube videos: Action-Conditioned Contrastive Policy Pretraining

方法大致是先给YouTube的视频打上驾驶行为的假标签，然后利用对比学习进行预训练，然后在Carla模拟器中的决策任务上进行训练和测试。我们把代码和预训练weight都公布了，欢迎大家比较。

同时期OpenAI也有篇利用Minecraft游戏视频做预训练的工作Learning to Play Minecraft with Video PreTraining (VPT），利用的是模仿学习。

Tete Xiao同学也有一篇把MAE用到Motor control模拟器环境上面做预训练的工作Masked Visual Pre-training for Motor Control。不过文章好像一直不中，后来他们一篇follow-up工作把MAE用到真机上，中CoRL oral了，Real-World Robot Learning with Masked Visual Pre-training，摊手，估计这类机械臂抓取实验还是得靠真机实验。

Alex.Zhang回答：

其实你提了一个很好的问题，伯克利的Pieter Abbeel在他的talk里面也提了这个问题，详情可以看他的homepage的talk. 所以这里就有很多论文了，可以看看Pieter的publications，里面CURL/RAD都是类似的工作。今年的工作例如伯克利的tete xiao有篇文章用MAE在ImageNet/YouTube数据上做pretrain, 然后下游用PPO做robotics任务，效果很好，发表在CoRL上面～Chelsea Finn和Abhinav Gupta合作的R3M把language- video进行了co-training用在BC上面也可以了解了解，总之这块的文章今年还是很多的，google一下pretraining for robotics估计就不少用的RL。

荔枝不剥皮（RL@THU）回答：

无人邀请，题主如果可以关注到现在学术前沿最近的半个月的工作应该会有所启发，事实是：我们正在走向大规模预训练模型，但是是和CV/NLP有差别的预训练模型。

从离线强化学习(offline RL)开始，BAIL他们现在的短期目标就是向着CV和NLP越靠越靠近。利用大规模数据实现强泛化性，完成few-shot甚至zero-shot的任务，最后实现多层感知的embodied AI。因为强化学习和传统类似于ImageNet还不太一样。在这里定义强化学习大规模数据和哪些东西有关: 机器人数量（是只有一个机器人还是多个），环境个数，任务个数，是不是goal-condition的任务（goal-condition的任务从某种程度上来说也有他的好处，避免了reward的设计，当然也有他的坏处，在这里我就不赘述了），是不是可以进行fine-tuning。根据这些分类，BAIL最近出了几篇工作可以关注一下：

Bridge Data: Boosting Generalization of Robotic Skills with Cross-Domain Datasets, https://arxiv.org/abs/2109.13396，RSS 2022
Pre-Training for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials. Pre-Training for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials , ICLR 2023投稿
Generalization with Lossy Affordances: Leveraging Broad Offline Data for Learning Visuomotor Tasks, Generalization with Lossy Affordances: Leveraging Broad Offline Data for Learning Visuomotor Tasks CoRL 2022
GNM: A General Navigation Model to Drive Any Robot, https://arxiv.org/abs/2210.03370

第一篇是介绍一个数据集，就是用来pretrain去探究few-shot甚至zero-shot的可能性，主要是imitation learning，但是这个都是一个robot收集的数据。第二篇就是是深入探究了强化学习利用birdge-data上多余数据集pretrain和fine-tune在新任务上的效果。第三篇主要探究了goal-conditioned情况下的表现，也是利用大规模数据，进行pretrain，再去学习，也highlight了pre-training的重要性。第四篇探究了多个robotcs提供observation，会不会有利于学习。他们都利用其他源先做了pre-train再fine-tuning，最后实现任务。具体区别可以参考下图：

同事另外也有人同时在关注Transformer在强化学习上的表现，从Decision transformer，Gato，Prompt Decision Transformer都似乎在带领我们走向大数据，大模型的道路。包括最近的Feifei Li他们的工作也在关注大规模数据下的强泛化能力。新智元：李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero-shot性能提升2.9倍

很期待看到预训练模型在强化学习上的发展。还没有深入读相关paper，欢迎指正和交流～

参考：

General-Purpose Pre-Trained Models for Robotics
What do we require to pre train robots?
文章转载自知乎，著作权归属原作者。

END

在看

人工智能与算法学习

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
为什么强化学习里很少有预训练模型？

提问：在NLP和CV领域中都存在一些非常出名的预训练模型（例如BERT和ResNet），但好像没有太听说强化学习里有类似于这种的backbone呢？对于预训练需要庞大训练数据集的问题，我理解CV中有ImageNet，NLP有MLM，而强化学习作为一门完全不用担心缺乏预训练数据的学科，按道理来讲应该更容易出一个预训练模型才对呀？我不清楚是不是我没有了解到Pretrain RL相关的信息，如果有类似的...
复制链接

扫一扫