NeurIPS 2022 | 中山大学&华为诺亚方舟联合提出：快速适应统一自动驾驶场景多任务学习的训练范式

最新推荐文章于 2024-04-22 07:30:57 发布

TechBeat人工智能社区

最新推荐文章于 2024-04-22 07:30:57 发布

阅读量594

点赞数

分类专栏：技术文章文章标签：计算机视觉多任务学习预训练 NeurIPS Adapter

本文链接：https://blog.csdn.net/hanseywho/article/details/127697531

版权

技术文章专栏收录该内容

122 篇文章 5 订阅

订阅专栏

原文链接：https://www.techbeat.net/article-info?id=4164

作者：梁曦文

本篇分享的NeurIPS 2022论文Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving，该论文由中山大学和华为诺亚方舟实验室完成。论文分析了多种预训练方法在自动驾驶多任务学习上的迁移能力，并提出更加有效的训练范式和结构。

论文链接：

https://arxiv.org/abs/2209.08953

一、摘要

在多任务学习中，针对多个下游任务提取具有更好可迁移性的特征是非常重要的。在目前流行的pretrain-finetune训练范式下，许多最新的自监督预训练方法在各种视觉任务上取得了显著的进展，但它们对于多任务场景的泛化能力仍有待探索。

在本文中，我们广泛研究了MoCo和SimCLR等各种类型的自监督方法在BDD100K数据集上的三个下游任务（包括语义分割、可驾驶区域分割和目标检测）的迁移性能。实验结果表明，它们的性能不是最优的，甚至远远落后于单任务模型，这可能是由于训练范式和架构设计的不同造成的。

为了解决这一问题，我们提出了一种简单有效的pretrain-adapt-finetune训练范式，可以在不增加训练开销的情况下有效地将现成的预训练模型适应到下游的多个任务。在adapt阶段，我们加入多尺度adapter，同时固定预训练模型的参数。

此外，我们将视觉语言预训练模型CLIP视为对 pretrain-adapt-finetune范式的有力补充，并提出了LV-Adapter，它通过特定任务提示将语言先验用于多任务模型以及视觉和文本特征之间的对齐。我们的实验表明，adapt阶段显着提高了那些现成的预训练模型的整体性能，并且LV-Adapter生成的上下文特征对下游任务具有普遍的好处。

图1 传统的pretrain-finetune范式与我们提出的pretrain-adapt-finetune范式的比较

二、pretrain-finetune

我们采用相同的训练协议和架构来广泛研究不同类型的预训练方法在迁移到多任务学习场景时的性能，包括面向任务的方法和视觉语言预训练，具体性能如下表白色部分所示：

表1 pretrain-finetune vs. pretrain-adapt-finetune

数据结果表明，在pretrain-finetune训练模式下，只有SimCLR在所有三个任务上都取得了不错的性能，而许多方法在像素级分割任务上遇到了实质性的退化。预训练的方式似乎与下游性能没有明确的相关性，甚至预训练中面向任务的设计也不能保证相应任务类型上的迁移性能。例如，面向分割的DenseCL在两个分割任务上实现了次优性能。

三、pretrain-adapt-finetune

我们的目标不是重新设计另一个会带来巨大计算开销的预训练方案，而是有效地重用这些现成的预训练模型，并对框架进行最少的修改。我们提出了一种简单而有效的pretrain-adapt-finetune范式来缩小预训练和微调阶段之间的差距。在adapt阶段，我们使用预训练模型权重（例如ResNet-50）来进行初始化。我们的目标是通过少量可学习的参数来转换模型权重，以使预训练权重的知识适应多任务场景。为此，我们冻结了随机初始化的特定任务head和backbone的参数，只训练特征金字塔网络 (FPN) 的参数。

在微调期间，所有参数通过梯度下降激活和更新。我们在图1中比较了多任务学习的不同方案。以FPN为adapter意味着pretrain-finetune和pretrain-adapt-finetune范式的模型架构相同，无需对架构进行任何修改即可实现有效适配。表1中黄色部分代表pretrain-adapt-finetune的实验结果，验证了我们的pretrain-adapt-finetune范式显著提高了不同类型预训练方法的性能和稳定性。

四、Language-to-Vision Adapter

CLIP可以用来增强pretrain-adapt-finetune范式，因为它可以理解自然语言。CLIP模型擅长对齐视觉和语言嵌入，一些工作发现CLIP生成的文本特征与图像中的语义区域具有有意义的对应关系。我们注意到表1中CLIP的结果仅重用了其图像编码器的权重并丢弃了文本编码器。因此，我们更进一步明确地利用完整CLIP模型中的知识，支持每个任务的语义概念与图像特征之间的兼容性，并为下游任务生成语义更强的上下文。我们提出的LV-Adapter结构如图2所示。

图2 我们提出的模型

学习特定任务提示： 我们参考CoOp使用可学习的文本上下文来提示每个任务，将每个任务的类名合并到提示中。此外，我们冻结了CLIP文本编码器的权重，以保留语言先验。

增强像素级对应： 为了对齐文本特征和FPN特征，LV-Adapter将语言先验合并到视觉特征中。我们利用Transformer解码器中的交叉注意力机制进行语言到视觉的自适应学习，并为下游任务生成语言感知的上下文。

五、实验

我们的方法在多个setting下优于现有的方法和单任务基准模型。实验结果表明，语言引导的pretrain-adapt-finetune范式可以通过将语言知识与视觉特征相结合，有效地缩小预训练和微调阶段之间的差距。

六、总结

在本文中，我们首次揭示了自动驾驶多任务学习场景下现有自监督模型的退化。为了缩小预训练和微调阶段之间的差距，我们提出了一种简单但高效的pretrain-adapt-finetune范式，在不增加整体训练开销的情况下大幅提升不同自监督预训练模型的性能。我们进一步利用视觉语言预训练模型CLIP作为我们提出的范式的补充，并提出了LV-Adapter，它通过以新颖的方式学习特定任务的提示将语言知识整合到视觉特征中。大量实验表明（1）adapt阶段是缓解多任务学习中主流的pretrain-finetune范式缺陷的关键，（2）CLIP编码的语言先验对多个下游任务具有普遍的好处。

Illustration by IconScout Store from IconScout

-The End-

关于我“门”
▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com