基于NAS的任务迁移

游戏★人生

已于 2023-10-22 19:07:59 修改

阅读量124

点赞数

文章标签：深度学习

于 2023-10-22 10:30:38 首次发布

本文链接：https://blog.csdn.net/qq_44869564/article/details/133970169

版权

首先，NAS是一种自动化神经网络架构设计的方法。它通过在搜索空间中寻找最佳的神经网络结构，以解决特定任务，从而优化神经网络的性能。NAS算法可以自动探索不同的神经网络结构，包括层数、节点数、连接方式等，以找到在给定任务上表现最好的架构。其次，迁移学习是一种机器学习方法，其中模型在一个任务上训练后，可以将其知识（权重和特征表示）转移到另一个相关或不相关的任务上。这可以加速新任务的训练，尤其是当新任务的数据稀缺时，或者新任务与原任务有一定的联系时。

然而，许多NAS搜索的计算成本很高，因为它们需要在许多候选体系结构上进行训练。在需要用于多个任务的网络的情况下，搜索每个任务的架构需要从头开始，重复NAS方法以找到性能最好的网络，并且在这过程中，会丢弃积累的具有潜在有价值的知识。

目前有许多基于NAS进行任务迁移的方法：

一、Learning Versatile Neural Architectures by Propagating Network Codes
发表： ICLR 2022
背景：设计一个能够适应多个不同任务的神经网络架构是非常具有挑战的，本文拟探讨如何设计一个能够适应多个异构视觉任务的神经网络。
创新点：
1、提出了网络编码传播（NCP），其反向传播神经预测器的梯度以直接沿着沿着期望的梯度方向更新用于各种目标的架构代码。
2、在实际训练环境下，我们在四个具有挑战性的数据集上构建NAS-Bench-MR，以学习任务可转移的架构。
3、实验表明，NCP在不同甚至冲突的目标和任务之间找到通用和可转移的结构方面是有效的。
方法：
文进一步提出了一种新颖的基于预测器的NAS算法，称为网络编码传播（NCP），用于寻找多功能和跨任务可迁移的架构。NCP通过将所有网络超参数编码为一个连续值编码，并利用神经预测器来建立编码和评估指标（如准确率、FLOPs等）之间的映射。然后，通过设置目标指标，并将预测器的梯度反向传播到编码上，沿着期望的梯度方向更新编码值，从而找到最优的架构配置。
Overview of Network Coding Propagation (NCP)
二、DATA: Domain-Aware and Task-Aware Self-supervised Learning
发表：CVPR 2022
背景：通过自监督学习（SSL）和对许多下游任务进行微调，在海量数据上无标签地训练模型的范式近年来已成为一种趋势。然而，由于高训练成本和下游使用的无意识，大多数自监督学习方法缺乏对应下游场景的多样性的能力。本文拟提出一种简单而有效的NAS方法，专门针对SSL，提供域感知和任务感知的预训练。
Illustration of how DATA works

创新点：
1、本文提出了一种基于自监督学习的神经架构搜索方法，可以在无标签数据上训练和搜索适应不同场景约束的网络架构。
2、本文设计了一种自监督超网络训练机制，通过固定教师分支的架构为最大模型，提供稳定的知识源，同时训练多个不同规模和结构的学生分支。
3、本文提出了一种自监督模型选择机制，利用预训练模型在目标数据集上提取的任务特定特征之间的相似度，来评估不同子网的质量，并实现域感知和任务感知的定制化预训练。
4、本文在多个下游视觉任务上验证了DATA的有效性和通用性，并且，可以在不同计算成本下找到优秀的网络架构。
方法：
本文的方法分为两个阶段：自监督超网络训练和自监督模型选择。
在自监督超网络训练阶段，本文构建了一个包含数百万个不同规模和结构的子网络的超网络，并利用对比学习的方式同时训练这些子网络。本文固定了教师分支的架构为最大模型，作为一个稳定的知识源，而学生分支的架构则随机采样自超网络。
在自监督模型选择阶段，本文根据下游任务和数据域的需求，从超网络中搜索合适的子网络。本文利用预训练模型在目标数据集上提取的任务特定特征之间的相似度，来评估不同子网的质量，并实现域感知和任务感知的定制化预训练。
Pipeline of our method