MAF: A General Matching and Alignment Framework forMultimodal Named Entity Recognition

文章提出了MAF,一个通用的多模态命名实体识别框架,解决图文不匹配和表示不一致的问题。通过跨模态匹配和对齐模块,MAF能更好地融合文本和图像信息,提高MNER性能。实验显示,MAF在效率和准确性上均优于现有方法。
摘要由CSDN通过智能技术生成

MAF:一种通用的多模态命名实体识别匹配与对齐框架 

WSDM2022

代码:https://github.com/xubodhu/MAF

1.背景

多模态命名实体识别(MNER)已经成为命名实体识别(NER)的一个重要研究方向,它可以利用图像作为额外的输入来改进基于文本的NER。它假设在文本信息不足的情况下,图像信息可以帮助识别有歧义的命名实体。 例如,给定文本“Handsome Rob after a fish dinner”,我们无法推断命名实体Rob的类型。它可以描述一个人或一只动物。 借助其附带的图像(如图1所示 ), 我们可以很容易地确定它的类型是misc。

 Text: Handsome [Rob MISC] after a fish dinner.

2.关键问题

①当前的方法基于一个强有力的假设,即每个文本及其伴随的图像都是匹配的,并且该图像可用于帮助识别文本中的命名实体。因此,在识别文本中的命名实体时,必须同时考虑文本信息和图像信息。但是,并非所有文本都与它们的伴随图像匹配,并且考虑到不匹配的图像信息可能会误导模型。例如,在图2中,图像中的对象 (人) 与文本中的命名实体 (Siri) 之间没有关系。如果考虑此不匹配的图像,则MNER方法会将Siri视为图像中的人,并做出错误的预测。

 

②当前的方法无法构建一致的表示形式来弥合两种模态之间的语义鸿沟。由于文本和图像的表示来自不同的编码器,因此它们之间的表示不一致。因此,很难直接使用这些不一致的表示来捕获文本中的单词与图像中的区域之间的对应关系。例如,在图1中,文本中的单词Rob对应于图像中对象猫所在的区域。理想情况下,句子中的‘Rob’应该和图像中存在猫的区域(V5,V6,V9)有着较高的相似度,并且应该与图像中的其他区域具有较低的相似性。但是,由于文本和图像之间的表示不一致,因此在计算相似度分时,文本中的Rob和图像中的Cat之间的相似度可能低于其他地区的相似度。因此,不一致的表示将阻止模型在文本和图像之间建立良好的连接。

 

3.创新点

我们提出了一个通用的匹配和对齐框架(MAF)

具体来说:

为了解决第一个问题(图文不匹配),我们提出了一种新颖的跨模态匹配(CM)模块来计算文本和图像之间的相似度得分,并使用该得分来确定应该保留的图像信息的比例。

为了解决第二个问题(图文表示不一致),我们提出了一个跨模态对齐 (CA) 模块,以使两种模态的表示更加一致。

4.本文贡献

首先,我们为MNER任务提出了一个通用的匹配和对齐框架,该框架可以减少不匹配的文本-图像对的影响,并使两种模态之间的表示更加一致。

其次,我们提出的两个模块 (CA和CM) 基于自我监督学习,不需要任何额外的数据注释,并且可以轻松地扩展到其他多模态任务。

最后,在两个广泛使用的MNER数据集上进行的实验表明,MAF实现了新的最好性能。还进行了消融研究和案例研究,以表明CA模块和CM模块在我们的框架中起着至关重要的作用。

5.MAF整体架构

通用匹配和对齐框架(MAF)如图所示,它包含四个主要模块:

(1)跨模态对齐模块; (2) 跨模态交互模块; (3) 跨模态匹配模块; (4) 跨模态融合模块。

整体流程如下:

1.我们首先通过BERT获得每个单词和整个文本的表示,通过ResNet获得图像的区域和全局表示

2.然后,整个文本的表示和图像的全局表示将被馈送到跨模态对齐模块,每个单词的表示和图像的区域表示将被馈送到跨模态交互模块。跨模态对齐模块用于使文本编码器和图像编码器的表示更加一致,跨模态交互模块用于获得文本感知的图像表示。

3.然后我们使用跨模态匹配模块来确定应该保留的图像信息的比例。

4.最后,我们使用跨模态融合模块来融合两种模态的表示,并将它们输入条件随机场层以获得最终的预测结果。

这些模块是同时训练的。 

6.数据集

7.实验结果

 

      我们还比较了最先进模型 (UMT-BERT-CRF) 和 MAF 之间的运行时间和模型大小。 如上表所示,UMT-BERT-CRF和MAF的参数个数分别为19628万、20829万。虽然我们的模型额外提出了跨模态匹配模块和跨模态对齐模块,但由于我们简化了跨模态交互模块,因此整体模型尺寸仍然小于 UMT-BERT-CRF。从模型在两个数据集上的训练和测试时间也可以看出,我们的模型训练时间比UMT-BERT-CRF快14.91%和14.21%,测试时间比UMT-BERT-CRF快14.61%和13.23%。这证明了我们模型的效率。

消融实验

        为了研究在我们框架中提出的CA和CM模块的有效性,我们对全模型MAF及其消融方法进行了比较。如表4所示,MAF受益于CA模块和CM模块。具体地,在TWITTER-2015的数据集上,没有CA模块,F1分数下降了0.23; 没有CM模块,F1分数下降了0.52; 没有CA模块和CM模块,F1分数下降了0.87。在TWITTER-2017的数据集上,没有CA模块,F1分数下降了2.04 ;没有CM模块,F1分数下降了1.32; 没有CA模块和CM模块,F1分数下降了2.65

       这些结果表明,CA模块和CM模块在我们的框架中都起着至关重要的作用。

样例分析

8 论文总结 

本文提出了MAF:用于MNER的一种通用的匹配和对齐框架,该框架改善了社交媒体帖子在多模式命名实体识别方面的最新性能。

本文提出了一种跨模态对齐模块(CA),以使文本表示和图像表示更加一致,并提出了一个跨模态匹配模块(CM)来确定应保留的图像信息的比例。

本文进行了大量的实验、消融研究和案例研究,表明CA模块可以帮助模型在文本中的命名实体与图像中相应对象所在的区域之间建立连接,并减少与图像中其他区域的交互作用。CM模块可以帮助模型过滤掉大部分与文本无关的图像信息,减少不匹配图像对文本的影响。

 

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值