关注公众号,发现CV技术之美
本文分享论文『Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks』,商汤(代季峰组)&西交&港中文提出《Uni-Perceiver》,用通用预训练感知模型处理多模态多任务!
详细信息如下:
论文链接:https://arxiv.org/abs/2112.01522
项目链接:尚未开源
导言:

动物的生物智能系统通过整合不同方式的信息并同时处理各种任务来感知世界。相比之下,当前的机器学习研究遵循特定于任务的范式,导致任务之间的协作效率低下,并且为新任务开发感知模型的边际成本较高。在本文中,作者提出了一种名为Uni-Perceiver的通用感知结构,该结构使用统一的建模和共享参数来处理各种模态和任务。
具体而言,Uni-Perceiver使用模态不可知的Transformer编码器和轻量级模态特定tokenizer将来自任意模态的不同任务输入和目标编码到统一表示空间。不同的感知任务被建模为同一个公式,即通过其表示的相似性来确定每个输入的最大似然目标。该模型在几个单模态和多模态任务上进行了预训练,并在各种下游任务上进行了评估,包括在预训练阶段没有出现的新任务。
结果表明,即使在新任务上,本文未经任何微调的预训练模型也可以实现合理的性能。通过对1%的下游任务数据进行prompt tuning,可以将性能提高到接近于SOTA方法的水平。完整的数据上的微调可以接近或优于目前SOTA的结果。
01
Motivation
动物的生物智能系统通过以不同的方式接收信息,复杂的中枢神经系统集成并同时处理不同的任务来感知世界。然而,设计一个处理多种模态和众多任务的通用感知模型一直被认为太难了。
为了简化这个问题,以前的机器学习研究集中于为来自某些受限模态的输入开发专门的模型,例如用于视觉识别的卷积神经网络和用于自然语言处理的Transformer。最近,Transformer在视觉领域也展现出了不错的性能。
根据这一范式,最近的工作采用了Transformer作为多模态应用(如视觉语言识别)的主干网络。它们将不同模态的输入用模态特定tokenizer转换为的统一输入标记序列。使用大规模多模态数据集对模型进行预训练,然后通过微调模型以适应下游任务。
尽管具有使用统一结构处理多模态信息的能力,但当前的方法仍然需要针对不同任务的特殊设计和训练。这种限制是由两个原因造成的。首先,特定模型的输入是其目标任务所需的特定模态的组合。其次,以前的工作需要为目标任务专门设计和训练的预测头。
作者认为,这一任务特定范式与设计通用感知模型的目标相冲突。具体而言,在预训练期间,针对不同任务的专门设计阻碍了任务之间的协作,这可能会损害表达能力。同时,当将预训练模型应用于新任务时,需要重新设计输入格式和预测头,并在足够的下游数据上进行调整。这在收集和标注数据方面仍然非常昂贵。此外,每个下游任务都需要复制和维护所有参数,随着任务数量和模型大小的增加,这变得不实用且不方便。
另一方面,当在训练数据不足的情况下进行微调时,可能会忘记对下游任务有益的预训练的知识,从而影响泛化性能。所有这些问题