用不匹配的图文对也能进行多模态预训练？百度提出统一模态的预训练框架：UNIMO（ACL2021）...

最新推荐文章于 2024-06-12 23:28:47 发布

我爱计算机视觉

最新推荐文章于 2024-06-12 23:28:47 发布

阅读量1.2k

点赞数

文章标签：大数据自然语言处理算法编程语言 python

本文链接：https://blog.csdn.net/moxibingdao/article/details/122532003

版权

百度提出的UNIMO框架通过跨模态对比学习，实现了统一模态的理解和生成，能在不匹配的图文对中进行多模态预训练。该模型适用于单模态和多模态任务，且在多项任务中表现出优越性能。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本文分享 ACL 2021 论文『UNIMO: Towards Uniﬁed-Modal Understanding and Generation via Cross-Modal Contrastive Learning』，由百度提出统一模态的预训练框架《UNIMO》、用不匹配的图文对也能进行多模态预训练？

详细信息如下：

论文链接：https://arxiv.org/abs/2012.15409
项目链接：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_generation/unimo-text

导言：

现有的预训练方法要么侧重于单模态任务，要么侧重于多模态任务，不能有效地相互适应。它们只能利用单模态数据(即，文本或图像)或有限的多模态数据(即，图像-文本对)。

在这项工作中，作者提出了一种统一模态预训练的结构，即UNIMO，它可以有效地适应单模态和多模态的理解和生成任务。利用大规模的自由文本语料库和图像集合来提高视觉和文本理解的能力，并利用跨模态对比学习来将文本和视觉信息对齐到统一的语义空间。在丰富的非成对单模态数据的帮助下，通过允许文本知识和视觉知识在统一的语义空间中相互增强，UNIMO能够学习更多的泛化表示。

实验结果表明，UNIMO极大地提高了多个单模态和多模态下游任务的性能。

Motivation

大规模预训练由于其强大的泛化能力和对大规模数据的高效使用，在计算机视觉（CV）和自然语言处理（NLP）领域都受到了广泛关注。近年来，CV领域的一系列基于ImageNet预训练模型极大的推动了各种计算机视觉任务的发展；NLP的预训练模型的涌现，如BERT、RoBERTa、XLNet和UniLM，极大地提高了语言理解和生成能力。

然而，上述研究主要集中于单模态学习，只能有效地应用于单模态（即仅文本或图像）场景。为了适应多模态场景，一系列多模态预训练方法也出现了，如ViLBERT、VisualBERT和UNITER，通过在图像-文本对语料库上进行预训练，大大提高了处理多模态信息的能力。然而，这些模型只能利用有限的图像-文本对语料库，不能有效地适应单模态的场景。