AAAI'22 | 多模态摘要任务中的知识蒸馏和分层语义关联

最新推荐文章于 2024-09-10 11:10:09 发布

zenRRan

最新推荐文章于 2024-09-10 11:10:09 发布

阅读量2.7k

点赞数 2

文章标签：大数据算法编程语言 python 计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247509945&idx=3&sn=62ba8261b92a8d66af988e5687380fec&chksm=eb53b32adc243a3cd94d201911882066a6bdcff231c1a062dae230feb846e4f2c4e2cd814758&scene=126&&sessionid=0

版权

每天给你送来NLP技术干货！

来自：复旦DISC

引言

各种模态充斥着我们的生活，让模型能够对多种模态信息理解和推理，是目前研究的热点方向。本文将介绍AAAI 2022关于多模态的相关工作，一篇关于Knowledge-Based VQA，两篇关于Multimodal Summarization。

文章概览

1. Multi-Modal Answer Validation for Knowledge-Based VQA

论文地址：https://arxiv.org/pdf/2103.12248.pdf

基于知识的视觉问答任务除了图像本身，还需要外部知识来回答问题。这种知识通常分为视觉、文本和常识。然而，更多的知识来源，会引入越多的不相关的、嘈杂的事实，也会使理解事实和找出答案变得更困难。为此，作者提出了使用外部知识的多模态答案验证（MAVEx），并首次使用外部的视觉知识，实验结果表明，在OK-VQA数据集上达到了SOTA。

2. UniMS: A Unified Framework for Multimodal Summarization with Knowledge Distillation

论文地址：https://arxiv.org/pdf/2109.05812.pdf

多模态摘要，旨在从文本和视觉模态中提炼出重要的信息，并输出最相关的图片。现有的方法大多侧重于提取式或抽象式摘要，并依靠高质量的图像描述来建立图像参考。作者首次提出了一个基于BART的多模态摘要的统一框架，即UniMS，它采用视觉语言预训练模型的知识蒸馏来改进图像选择，还引入了一个视觉引导解码器，以更好地整合文本和视觉模态来引导抽象文本的生成。结果表明，UniMS最佳模型在一个大规模的基准数据集上取得了新的最先进的结果。

3. Hierarchical Cross-Modality Semantic Correlation Learning Model for Multimodal Summarization

论文地址：https://arxiv.org/pdf/2112.12072v1.pdf

传统的MSMO方法通过学习整个数据的表征来无差别地处理不同模式的数据，这并不能直接适应异质内容和层次性的关联。为此，作者提出了一个层次化的跨模态语义关联学习模型（HCSCL）来学习多模态数据中存在的模态内和模态间关联。此外，作者还构建了一个新的数据集，其中包含相关的图像注释和图像对象标签信息，为学习过程提供监督信息。在该数据集上的大量实验表明，HCSCL在自动摘要指标和细粒度多样性测试中明显优于基线方法。

论文细节

动机

基于外部知识的视觉问答任务是当前的一个趋势。回答该任务中的问题，需要多种形式的外部知识，包括文本、视觉、常识知识。如何在多种外部知识中有效地检索并结合我们需要的知识是一个巨大的挑战。直接根据问题和图像检索的知识是有噪声的，不利于模型预测出正确的答案。作者通过实验发现，如果检索时加入正确的答案，检索得到的知识的质量会大大提高。这启发我们使用知识检索来验证答案比直接预测答案更有效。因此，作者提出了一个方法（MAVEx），使用候选答案来指导包含文本和图像的多模态知识检索，并证明了其有效性。

模型架构

MAVEx包含三个阶段。第一阶段，使用ViLBERT生成候选答案。第二阶段是基于候选答案的知识检索，主要包括三个步骤：查询的提取；基于候选答案知识池的构建；查询和知识池的匹配。

（模型框架图）

查询提取

问题解析得到一系列名词短语，和候选答案一起构成Noun Chunks；然后将这些名词短语跟图像中的物体连接起来；最后解析出各个名词短语的主体，并且检测图像中其相连的物体，得到属性，生成查询。

知识池构建

首先，使用T5模型将问题和候选答案结合，生成一系列陈述。然后使用上一步生成的查询从Wikipedia和ConceptNet检索文章，计算每一个陈述和文章每一句话的BERTScore，每篇文章取top-15的句子放入知识池中。视觉知识池则包括内部视觉知识和外部视觉知识。内部视觉知识由MaskRCNN检测到的物体构成，外部视觉知识则是根据陈述谷歌搜索得到，取相关性top-5的图像。

查询和知识池的匹配

查询可以帮助定位外部知识中关键的信息，所以还需要对知识池和查询进行匹配。对于Wikipedia和ConceptNet池，每个查询取最相关的m个句子，相关性由平均余弦相似度衡量。对于视觉池，每个查询都有图片中的多个物体与之相连，取top-3；对于每个候选答案，谷歌搜索得到top-5的图像。

第三阶段是候选答案验证。如上图所示，每一个知识来源检索到的知识都要传入一个相同结构的embedding module，最终得到一个多粒度的表征。以Wikipedia的知识为例，首先，使用T-BERT得到所有句子的表征，取单个查询匹配的句子的平均特征作为每个查询相关知识的表征。然后将问题中的每个名词短语对应的所有查询的相关知识表征传入一个Multi-head Attention模块，得到每个名词短语的相关知识表征。类似地，可以得到候选答案短语的知识表征。将所有名词短语的表征再传入一个Multi-head Attention模块，得到问题的相关知识表征。最后，我们得到三种知识来源的知识表征。最后经过前项神经网络得到每种知识来源对候选答案的概率估计，分别取最大值即为最终的概率。

实验结果

作者在OK-VQA数据集上做了实验，结果表明，引入外部视觉知识可以提高模型性能，同时，使用外部知识来验证候选答案是有效的。

动机

目前多模态摘要方面的工作主要包括两个目标，抽象文本摘要和相关图像选择。BART等高性能语言模型在多模态摘要任务中也有明显收益。但BART模型不支持多模态的输入和输出。在图像选择上，之前的一些工作依赖于高质量的图像描述，去生成伪图像标签。但是这些图像描述往往不够好，会引入噪声。为此，作者提出了统一的基于BART的多模态摘要模型，采用知识蒸馏来改进图像选择，而不再需要图像描述；同时在编码器中引入提取式摘要，在解码器中引入视觉信息，从而更好地融合文本和视觉模态，生成文本摘要。该模型在多模态摘要的所有子任务上都达到了SOTA。

方法

以下是UniMS的架构。

多模态编码器

首先，将每张图片切成多个patch，经过线性映射获得embedding，再和文本的embedding结合传入BART的encoder。encoder输出得到hidden state，作为最后视觉引导解码器的输入。抽出特殊token [cls]的hidden state构成和，分别代表一句话或者一张图片的表征。

知识蒸馏

首先，分别通过CLIP模型的图像编码器和文本编码器得到图片和摘要的embedding，然后计算每张图片和摘要的余弦相似度。同时，从多模态编码器得到的经过线性映射得到每张图片的分数，最小化余弦相似度和分数的KL散度，使编码器可以学习到CLIP网络的信息。

提取式摘要

如果编码器仅受到单模态的监督，常常会出现模态偏差的问题。因此，UniMS引入提取式摘要来监督编码器的训练。提取式摘要通过贪婪的算法得到，经过全连接网络后得到每个句子为提取式摘要的概率，cross-entropy作为目标函数。

视觉引导解码器

不同于传统解码器直接把encoder的输出整个传入decoder，视觉引导解码器则是先把视觉信息的hidden state传入decoder，然后将decoder的输出再和文本信息的hidden state一起再次传入decoder。这可以更好地利用视觉信息。

实验

R-1、R-2、R-L都是衡量生成的文本摘要的准确度的指标。IP是衡量图片是否被正确选出的指标。则是衡量文本摘要和图片的相关的指标。从上图可以看出，UniMS在文本摘要生成和图片选择的子任务上性能都有显著提高。作者还做了消融实验，证明了提取式摘要监督编码器和视觉引导解码器的有效性。

动机

通常情况下，视觉图像和文本文章具有异质性结构。直接将视觉输入和文本输入映射为全局向量并不能有效地从对方那里学习到两种模式的重要信息，甚至会有噪声信息加入，降低摘要的性能。同时，视觉内容和文字文章之间的关联性呈现出独特的特点，图像中的低层次物体通过它们之间的相互作用构成了被称为场景的高层次语义。在另一个数据空间中，单词也是一篇文章中的基本文本信息，而单词的组合，称为句子，呈现出更抽象的语义信息。除了模态内的关联，图像和文章中的语义对象在不同的层次上也有关联。为此，作者提出了一个分层学习模型HCSCL来学习多模态数据中的模态内和模态间的关联性。还提出了一种多模态的视觉图学习方法，以捕捉结构和内容信息，并加强模态间的互动。并且构建了一个具有相关图像注释和对象标签的大规模多模态摘要数据集，以评估MSMO的性能。

方法

HCSCL的框架如下：

HCSCL包括三个模块：模态特征编码器用于编码每个模态，层次化的语义关联融合模块用于学习模态内和模态间的层次化关联，多模态输出总结器利用层次化的关联来生成多模态摘要。表1列出了不同模块中使用的关键变量。

首先，使用LSTM编码文章句子，使用Faster-RCNN提取图片中的物体特征。然后传入层次化的语义关联融合模块，在两个层面上学习相关性：单词-物体融合和句子-场景融合。单词-物体融合采用一个基于注意力的跨模态编码器（CME）学习模态间的关系。CME由三部分组成：交叉注意力层、自注意力层和前馈层。其中每个子层中也加入了残差连接和LayerNorm。三个步骤重复次，即可得到融合后的单词表征和融合后的物体表征。句子-场景融合包括两方面，一方面，将单词表征传入LSTM模型得到整个句子的表征。另一方面，图像中物体的一部分被关联起来，形成一个场景来表示一个更抽象的概念或活动。首先，基于图像编码器提取物体边界框，为每两个物体计算一个IOU得分。接下来，构建一个带有邻接矩阵A的关系图，如果IOU分数超过了阈值, = 1，否则 = 0。然后按照如下公式计算物体i相对于物体j的特征分数：

再结合IOU分数和特征分数得到有向边的权重：

最后，结合邻接矩阵A得到一系列子场景图的表征：

其中，readout函数的公式如下：

最后，通过CME计算得到句子-场景融合特征和。

多模态输出摘要器会生成文本摘要，附带一张最相关的图片。文本摘要生成方面，使用分层注意力机制。在时间片t-1时，传入融合后的句子特征{}，得到hidden state ，然后按如下公式分别计算i-th句子的权重和j-th单词在i-th句子的权重。

然后，按照如下公式计算时间t时的context 和预测的单词。

图像选择方面，最相关的图像应该在物体层面和场景层面都与摘要语义相匹配。首先，隐藏的状态特征被用于计算与物体和场景的相关分数。使用物体-场景门机制计算两种特征的权重，加权后得到每张图片的相关分数。选择分数最高的图片最为选择的图片。具体公式如下：

数据集和实验结果

由于MSMO任务现有的数据集缺乏最相关图像的标签，所以作者提出了一个大规模的中文摘要数据集，包括完备的图像标注和细粒度的物体信息。具体信息如表2所示。

作者与传统的文本模型、仅输出文本的多模态摘要模型和多模态输出的多模态摘要模型三种基线模型均做了性能比较，下表显示了比较结果。HCSCL在几乎所有的评估指标上都达到了最先进的性能。HCSCL在Rouge-1、Rouge-2方面比基线高出1.51%、0.76%，在BLEU-1、BLEU2、BLEU-3、BLEU-4方面高出1.48%、1.27%、0.75%、0.20%。和22.32%的IP。这表明了高层次的跨模态相关学习模型的优越性。通过利用模态内相关学习和模态间特征对齐，视觉内容可以加强文本内容的特定部分的表示，而文本内容可以加强选择相关图像。

总结

本次复旦DISC公众号介绍了AAAI 2022中与多模态相关的几篇工作，一篇关于Knowledge-Based VQA，两篇关于Multimodal Summarization，各种模态充斥着我们的生活，让模型能够对多种模态信息理解和推理，是目前研究的热点方向。

供稿丨刘晴雯编辑丨吴焜责编丨林恒旭

供稿人：刘晴雯丨本科生4年级丨研究方向：多模态和机器学习丨邮箱：18307130328@fudan.edu.cn

最近文章

EMNLP 2022 和 COLING 2022，投哪个会议比较好？

一种全新易用的基于Word-Word关系的NER统一模型，刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！  后台回复【五件套】
下载二：南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易，还望给个在看！

zenRRan

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫