AAAI'22 | 预训练中的多模态信息融合与表征探究

每天给你送来NLP技术干货!


来自:复旦DISC

1f1eb5a7aa4ac167c5aa44a3f708c3b5.gif

引言

8cf4b1b10d6f7179dc981379f21e99aa.gif

数据的不同模态表征共同或是互补地传达了一个跨模态的叙述。多模态学习将不同模态之间的信息进行融合,学习不同模态信息之间的关联,旨在让计算拥有处理不同来源信息的能力。

以下三篇文章分别介绍了多模态任务、视觉语言预训练模型以及对视觉语言预训练模型表征的探究。

708192f6e068c7619c0457314b753c15.gif

文章概览

38f5133cd12f18331a5699ec2b078c57.gif

1. MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding

MUMUQA:通过跨模态知识提取和Grounding的多模态多跳新闻QA

论文地址:https://arxiv.org/pdf/2112.10728.pdf

本文中作者提出了一个包含1384个问题且需要进行跨模态grounding的新的QA评估基准;具体来说,任务涉及多跳问题,需要在图片-文本对之间及逆行推理以确定所指的基础视觉对象,然后从新闻正文中预测出一个跨度来回答问题。此外,作者提出基于多模态知识提取和和问题-答案生成的多模态数据增强网络为这项任务提供弱监督。

2. CLIP-Event: Connecting Text and Images with Event Structures

CLIP-event:通过事件结构进行文本-图片连接

论文地址:https://arxiv.org/pdf/2201.05078.pdf

视觉语言预训练模型通过理解图片-文本之间的对齐,在支持多模态应用方面取得了巨大的成功。本文中,作者提出了一个对比学习的框架来增强视觉语言预训练模型对结构性事件信息的理解,并且收集了事件丰富的图文对用于模型的预训练。实验表明,在多模态时间提取方面,作者的CLIP-event预训练模型在Zero-shot和supervised的设定下能够在多模态事件抽取任务上达到SOTA。

3. Are Vision-Language Transformers Learning Multimodal Representations? A Probing Perspective

基于Transformer的视觉语言模型是否学习到多模态表征?一个探索性研究。

论文地址:https://hal.archives-ouvertes.fr/hal-03521715/file/11931.SalinE-7.pdf

近年来,由于基于transformer的视觉语言预训练模型的发展,联合文本-图片的embedding得到明显的改善。作者通过一组文本、图像、多模态探究任务在单模态和多模态层次上比较预训练和微调的表征,并且引入了专门用于多模态探测的新数据集。结果证明了视觉语言预训练在多模态层次上理解了颜色的概念,对位置和大小的理解更依赖文本;在语义对抗的例子上,作者发现多模态预训练模型能够准确地指出细微的多模态差异。同时,作者发现模型在多模态任务(VQA、NLVR)上进行fine-tune不一定能提高其多模态表示能力。

c51604120ae66cd4b25e9151aa3754fe.gif

论文细节

20633f12e78bd01b7f9e58f2eb9b618c.gif

1

d650dd860a1f9c05b5228720eba22dad.png

论文动机

使用图像的QA往往只限于从一组预定义的选项中挑选答案,而这样的多选形式被证明是有显示偏见的。Talmor等人(2021)贡献了一个涉及表格、文本和图片推理的抽取式多跳QA数据集;然而每张图片都与维基百科的一个实体相关联,因此对图片的推理基本可以归结为根据问题对图片进行排名并使用排名靠前的图片对应的实体。目前的多模态基准由于在回答问题时并不要求图像-文本grounding使得模型无法解决需要在图片和文本上进行联合推理的问题。因此,作者提出新的QA评估基准任务——多模态多跳QA,并且设计了自动生成silver-standard训练数据的pipeline。

多模态多跳问题回答(MUMUQA)任务介绍

给定带有图像-标题对以及问题的新闻正文,系统需要在正文中找到相应的文本跨度来回答问题。回答问题的过程中,系统需要进行多跳推理:首先进行图片-标题对之间的grounding为与问题中图片相关的部分找到中间答案,称为桥项(bridge item);第二跳是通过中间答案在新闻正文中进行推理,提取文本跨度作为最终答案。例子如下:

8648bb3a020829229eb90ca8fe16091c.png

Benchmark数据集

dc7ff9fb60688aea63799b3639191ed7.png

Silver-standard训练集生成

训练集的生成流程如下所示:

dd2acfe1e012d64fec0e359d12e86e0c.png

首先通过图片-Caption对之间的Grounding获得图片中Object在Caption中的描述,并对Drounded的图片Object运用视觉属性抽取系统提取相应的视觉属性以便生成对Object的描述。在得到Caption中Grounded的实体之后,先使用SOTA的知识抽取模型对Caption和正文进行相应的实体提交抽取以获得候选的上下文来进行问题-答案对生成。使用带视觉属性的图片Object的描述来替换生成的问题中的Grounded实体对应的文本跨度。最后过滤掉能够被单跳纯文本QA模型回答的数据。

在生成的Silver-standard训练集上,作者随机挑选100条数据进行了人为评估:80%的问题需要使用图片信息,59%有正确的桥项;在正确桥项的情况下,64%的问题拥有正确答案。Grounding以及QA生成的性能会显著影响数据集的质量。

QA模型基准

在文中,作者使用了SOTA的纯文本QA模型、通过OSCAR微调得到的端到端的QA模型以及pipeline-based多模态QA模型在数据集上进行实验。pipeline-based多模态QA模型架构如下:

a3928df6d902a622f971898801f4c9dd.png

步骤和生成训练集的过程相似,首先进行Image-Caption Grounding得到候选的Entity-Object对,并进行视觉属性提取;对于问题,首先根据问题分解模块对问题进行分解得到图片相关问题以及文本相关问题;将图片相关问题中提及的属性与Grounding结果进行匹配,匹配的Entity作为中间答案与文本相关问题一起进行文本端的QA得到最终答案。

实验结果

46d6cb20a9da3f940ae01278c6845b4d.png

作者对Pipeline-based模型进行了各阶段的分析,发现模型找到正确桥项的在开发集和测试集上分别为33.5%和29.8%,而人工基线为78.8%;在正确桥项的情况下,系统的分数为51.1%。

2

7fa1df7bdb75d6acc6cfdc5aeda1b7ee.png

论文动机

现实世界的多媒体应用不仅需要了解Entity的知识,还需要了解事件与事件Argument相关知识。然而目前已有的视觉语言预训练模型侧重对图像或Entity的理解,忽略了事件语义和结构信息,这可能导致模型对动词的理解失败。因此将事件结构知识的学习纳入到视觉语言模型预训练过程进行更多粒度的跨模态信息学习是很有必要的。据此作者设计了一个自监督的对比学习框架CLIP-event,利用标题中丰富的事件知识作为远距离监督来解释图像事件,从而有效地将事件知识进行跨模态迁移。

方法

以下是CLIP-event的架构:

fa4ef100b4148cd6a92030cb3c61639f.png

首先,使用Faster R-CNN提取图片中的Objects;对Caption使用SOTA的信息抽取系统提取事件并确定基本事件类型(如果存在多事件,图像更通常地描述了标题的主要事件;选择更接近依赖性解析树、有更多Arguments、更高事件频率以及在CLIP下动词和图片有更高相似度的事件作为基本事件)。然后框架根据提取到的事件类型设计两类Caption负样本(改变事件类别或只改变事件Arg顺序),并根据prompt函数生成结构事件的描述。通过优化图片事件图和正例事件图之间的最优传输距离以及正负样本与图片的相似度来达到多模态信息融合。以下介绍相关细节:

Caption 正负样本生成

负样事件取样:首先计算CLIP在预训练图像-标题数据集上的事件分类器的混淆矩阵(分类器是基于事件类型标签和输入图像i之间的相速度得分,并选择最大的作为预测的事件类别;混淆矩阵通过比较预测的事件类型和图像的主要事件类型而计算的)。然后选择最容易混淆的作为负样本事件类型。

负样本Argument取样:保持事件类型不变,对事件Argument的顺序进行右旋转操作

描述生成:为了对提取到的事件结构以及负例事件结构进行encoding,作者设计了多种prompt函数(此处给出生成的例子)

78423570d29566298e917c8dc48d75c0.png

通过Optimal Transport进行事件图对齐

事件及其Arguments可以被组织成以事件节点为根节点,role为边,argument为叶节点的事件图,对齐主要包括三个方面(下图为符号标记解释):

d50cd254de0acdfa28b40e1cd58accb6.png

图像级别对齐:计算图片和文本的相似度以及距离(c(.,.) = 1 - cos(.,.))。

d8ed0478baac2c685ffc9385c1eab8f4.png

Entity级别对齐:文本Entity与图片object之间余弦距离包含两者的表征相似度以及类别相似度。

11a54e0e70b1a5159c4938be3dac7656.png

事件级别对齐:为了获得两个图之间的全局对齐分数,作者采用Optimal Transport的方法来获得两个模态事件图之间的最小距离。

9f9c500f15074e0f40de950169743927.png

其中C是成本矩阵,事件节点间的成本为:

97320f2f92d4c1d515314bf6da950623.png

事件Arg节点间的成本为:

5ae43376ea1e24143105297b4360ad05.png

损失函数

(1)优化文本正样本与图片之间的相似性至1,负样本与图片之间相似性至0。

a2454a08b7e4174011c10d487caf63bf.png

(2)最小化不同模态事件图之间的距离。

69d33718f1b014a0910b2e09970a33d2.png

最终损失函数为两者加权。

实验

作者使用ViT-B/32的参数作为模型的初始化,在收集的数据集上进行预训练,数据集情况如下:

765437e455c03e389e595e6bba1d8a8d.png

模型在多模态事件抽取(M2E2)、基础情境识别(GSR)、图片检索(Image Retrieval)等任务上与目前的SOTA模型进行对比评估。

8a4a13d946804b6c78424784e32b8d66.png

可以看到CLIP-event在Zero-shot和Supervised设定下都取得了SOTA的表现。上图的实验结果也表明在预训练阶段进行事件图对齐有利于模型提取到更好的多模态信息,从而在多模态任务上有更好的表现。

3

3110246f74d13655627a8a716b441c9b.png

论文动机

视觉语言任务(如视觉问题回答、跨模态检索或生成)非常困难,因为模型需要建立合理的多模态表征将文本和图片的细粒度元素联系起来。在BERT等基于transformer的语言模型成功后,各种基于transformer的多模态预训练模型(如LXMERT、OSCAR、ViTL等)被提出用于得到文本-图片的多模态表征,并且在多模态任务上达到SOTA。但重要的是要了解多模态信息是如何在这些模型学到的表征中编码的,以及它们是如何受到其训练数据的各种bias和属性影响的。Hendricks & Nematzadeh依靠探索任务来研究多模态预训练模型对动词的理解,并确定模型对动词相关的多模态概念的学习少于主语和宾语的学习。在本文中,作者通过特定的一组探索任务来探究VLM的多模态表征能力以及对单模态信息的偏向性。

方法

文章的研究框架如下:

3be29feaa1317a782e64c7fc9c8fa0e2.png

首先将图文匹配和图文不匹配的图文对分别输入到预训练的视觉语言预训练模型或是fine-tune后的模型,得到数据对应的模型最后一层表征;将得到的[CLS]或是WORD级别的token表征输入到一个未在数据集上训练的线性探测模型(只能依赖模型在预训练或是fine-tune阶段已经提取到的线性可分离信息)用于反应VLM提取到探索任务p所需信息的能力。

如果p是一个面向语言的任务,其输入数据集为:{()};则相关任务的输入则为与文本不匹配的数据:{()}。如果的性能与的性能相似,则说明VLM得到的表征不受视觉bias的影响。如果p是一个面向视觉的任务,则相关任务的输入则为与图片不匹配的数据:{()}。如果的性能与的性能相似,则说明VLM得到的表征不受语言bias的影响。对于多模态探索任务p,作者想研究在模型决策阶段语言是否比视觉信息更被模型重视,相关任务的输入为{()};如果VLM提取到多模态信息,那么的信息应该比的性能更优。

探索任务(Probing Tasks) 

探索任务主要分语言、视觉以及多模态三部分进行:语言探索任务包括Part of Speech Tagging(对token进行语义分类,数据集通过en core web sm SpaCy tagger进行构建)、Bigram Shift(确定一个句子中连续的两个词是否被调换);视觉探索任务为Flower identification和Object Counting;在多模态探索任务上,作者主要在描述对象的概念属性方面进行,设计了颜色、大小、位置识别以及Adversarial captions任务并构建了相应的数据集进行评估,以下是“Two men standing behind a tall black fence”在各任务上修改后的caption负例展示。

dc6e95920ba62d41b8e270b1258a729a.png

各探索任务的相关信息如下图所示:

8a3821ceccb4b9be93a3a0dc44aa7015.png

实验设定及结果

作者选择了三种不同架构且已经预训练好的视觉语言模型:UNITER,LXMERT,ViLT在不同的探索任务上与单模态的SOTA模型进行对比:

392f101c4cb48dc284abcaab17b45ec2.png

Pre-trained 单模态:

e2c4cdb73776439aad327fb2a3085e35.png

在语言任务上,可以注意到与文本不匹配的图片输入会对UNITER造成负面影响。

732af31f9432ba4cc1b364543a97f384.png

12e3a979469f148a6256b2c5b7600023.png

在视觉计数任务上(使用RMSE作为评价标准,越小越好),可以发现正确的语言线索可以显著的提高模型的性能。

Pre-trained 多模态:

c71be28a9dce77da61c3b0fade1dfe7e.png

在M-Col和M-Adv任务上,VLM模型达到了比单模态的baseline好得多的性能,多模态信息得到了有效的提取;而在M-Size和M-Pos任务上,VLM的性能并没有得到提升,大小和位置的信息在多模态层次上并没有得到很好的提取。

Fine-tuned单模态:模型经过VQA和NLVR任务上进行fine-tuning后,模型在探索任务上的表现如下。

b22e1ee4bb59fb80aa7413875a28a18d.png

在语言任务上,唯一有提升的是UNITER在负例上的表现,作者将其归结于该模型预训练协议的特殊性。而在NLVR任务上fine-tuned的模型表现出更低的性能可能是因为NLVR任务使用两张图片作为输入,和预训练、探索任务不同;LXMERT经过fine-tuned的性能体现出该模型更容易忘记在预训练阶段学习到的语义知识。

645b87bf5f0b0637ba378e95fbdb0a85.png

12081d19f3509269afbe69a3acfafed4.png

Fine-tuning改善了UMITER和LXMERT的视觉性能。这似乎表明VQA和NLVR依赖视觉信息,而这些信息在预训练模型中不容易获取,同时也表现出两个模型在提取视觉信息上的不足;另一方面Fine-tune并没有提高ViLT提取视觉信息的能力。

Fine-tuned 多模态:

4e9b42cf22cf7442eb9a58becc7fad50.png

可以发现在M-Size和M-Pos任务上,各模型在fine-tuned后都有了一定的提升,这可能是因为VQA和NLVR任务比预训练更加注重对Size和Position的理解;在M-Col和M-Adv任务上,Fine-tuned的LXMERT模型有了较大的提升。



供稿人:游涛丨本科生四年级丨研究方向:机器学习与跨视觉语言模态丨邮箱:18307110206@fudan.edu.cn

最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果


下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

feed7eae2824cd787365c56cdfc091db.png

记得备注呦

整理不易,还望给个在看!
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于多模态数据融合的负面情绪识别方法主要通过联合考虑多种模态的信息来提高情绪识别的可靠性和稳健性。在多模态学习,不同模态之间的信息被融合,以学习不同模态信息之间的关联。 然而,目前存在的基于深度学习的多模态情感识别方法通常需要大量的标记数据进行训练。由于情绪标签的生成困难和不一致性,实际应用缺乏足够的标记数据。因此,设计有效的无监督/弱监督学习和少/零次学习算法可以提供潜在的解决方案。另外,对于多源域的情况,多模态领域自适应和域泛化方法可以缓解域间差异的影响。 综上所述,基于多模态数据融合的负面情绪识别方法需要考虑多种模态的信息融合,并且可以利用无监督/弱监督学习和少/零次学习来处理缺乏标记数据的情况。此外,多模态领域自适应和域泛化方法可以帮助解决多源域情况下的域间差异问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [多模态情感识别数据集和模型(下载地址+最新综述2021.8)](https://blog.csdn.net/qq_44722174/article/details/120032522)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [AAAI'22 | 预训练多模态信息融合表征探究](https://blog.csdn.net/qq_27590277/article/details/123516419)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值