ACMMM2022 | 从不同的文本图片对中学习:用于多模态NER的关系增强图卷积网络

每天给你送来NLP技术干货!


e3520648c4f1aa191dc78e7d29264f87.png

来自:南大NLP

01

研究动机

命名实体识别(NER)是信息抽取的一项基本任务,它的目的是识别文本片段中的实体及类型,如人名(PER),地名(LOC)和组织名(ORG)。命名实体识别在许多下游任务都有着广泛的应用,如实体链接[1]和关系抽取[2]。

cc3cbd049c14cd1f8b71d1291989e386.png

图1:来自 Twitter 平台的多模态帖子,在这条推文中,“Alibaba”是人名而不是组织名

最近,大多数关于NER的研究只依靠文本模态来推断实体标签[3,4,5],然而,当文本中包括多义实体时,只依赖文本模态的信息来识别命名实体就变得非常困难[6,7]。一种有希望的解决方案是引入其他模态(比如图像)作为文本模态的补充。如图1所示,Twitter文本中出现的单词“Alibaba”可以被识别为多种类型的实体,例如人名或组织名,但当我们将单词“Alibaba”与图片中的视觉对象person对齐后,组织名就会被过滤掉。

从上面的例子中可以看出,将文本中的单词与图片中的视觉对象对齐是多模态命名实体识别任务(MNER)的核心。为此做了很多努力,大致可以分为以下三个方面:(1)将整张图片编码为一个全局特征向量,然后设计有效的注意力机制来提取与文本相关的视觉信息[6];(2)将整张图片平均地分为多个视觉区域,然后显式地建模文本序列与视觉区域之间的相关性[7,8,9,10,11,12];(3)仅保留图片中的视觉对象区域,然后将其与文本序列进行交互[13,14,15,16]。

尽管取得了很好的效果,但上述研究独立地建模了一对图片和文本中的内部匹配关系,忽略了不同(图片、文本)对之间的外部匹配关系。在这项工作中,我们认为这种外部关系对于缓解 MNER 任务中的图片噪声至关重要。具体来说,我们探索了数据集中的两种外部匹配关系:

  • 模态间关系(Inter-modal relation):从文本的角度来看,一段文本可能与数据集中的多张图片存在关联,当文本中的命名实体没有出现在相应的图片中时,其它相关图片通常对识别文本中的命名实体是有帮助的。如图2(b)所示,句子S2中的命名实体"Trump"没有出现在相应的图片中,因此仅仅依靠非正式的句子S2很难推断出命名实体标签。然而,当考虑到与句子 S2 密切相关的其他图片时(例如图2(a)和2(c)),句子S2中的命名实体标签大概率是“PER”,因为这些相关的图片中都包含了视觉对象person。因此,一个可行且自然的方法是建立不同(图片、文本)对中图片与文本之间的关联;

  • 模态内关系(Intra-modal relation):从图片的角度来看,不同的图片中往往包含着相同类型的视觉对象,清晰的视觉对象区域比模糊的视觉对象区域更容易识别命名实体标签。例如,图2(d)与2(e)中都包含了视觉对象person,虽然通过图2(d)中模糊的视觉对象区域来推断句子 S4 中的命名实体标签相对困难,但我们根据图2(e)可以推断出句子S4中的命名实体标签很可能是“PER”,因为图2(e)中清晰的视觉对象更容易推断出命名实体标签"PER"。因此,一个可行且自然的方法是建立不同(图片、文本)对中图片之间的关联;

f30939e645ad4a3c3b155c679f648541.png

图2:每个蓝色框包含数据集中的一对图片和文本。命名实体及其对应的实体类型在文本中突出显示。黑色箭头表示图像-文本对中的内部匹配关系。绿色箭头表示不同图文对中图片和文本之间的模态间关系,红色箭头表示不同图文对中图片之间的模态内关系

为了更好地建模上述两种外部匹配关系,我们提出了一个用于多模态NER任务的关系增强图卷积网络(R-GCN)。具体来说,R-GCN主要包括两个模块:第一个模块构建了一个模态内关系图和一个模态间关系图分别来收集数据集中与当前图片和文本最相关的图片信息。第二个模块执行多模态交互和融合,最终预测 NER 的标签序列。广泛的实验结果表明,我们的R-GCN网络在两个基准数据集上始终优于当前最先进的工作。

02

贡献

1.据我们所知,我们是第一个提出利用不同(图片、文本)对之间的外部匹配关系来提升MNER任务性能的工作;

2. 我们设计了一个关系增强的图卷积神经网络来同时建模模态间关系和模态内关系;

3. 我们在两个基准数据集上的实验结果都达到了最先进的性能,进一步的实验分析验证了我们方法的有效性;

03

解决方案

1aefc2c33ab437baabbcab5ffb63e349.png

图3:R-GCN模型的整体架构

在本文中,我们提出了关系增强的图卷积神经网络R-GCN来建模两种外部匹配关系,图3展示了该模型的整体架构。它主要由四个模块组成:(1) 模态间关系模块;(2) 模态内关系模块;(3)多模态交互模块;(4)CRF解码模块。下面,我们主要介绍前两个核心模块。

模态间关系:根据我们的观察,一段文本可能与数据集中的多张图片存在关联,当文本中的命名实体没有出现在相应的图片中时,其它相关图片通常对识别文本中的命名实体是有帮助的。为此,我们提出了模态间关系图从数据集中收集与输入句子具有相似含义的其他图片。下面,我们将详细介绍如何构建模态间关系图的顶点和边:

  • 顶点:模态间关系图中有两种类型的顶点,分别是文本节点和图片节点。文本结点作为中心节点,它通过将句子输入到预训练模型BERT中得到,而图片节点是从预训练模型 ResNet [17]中提取的图片表示,旨在为中心节点提供辅助信息。

  • 边:我们的目标是衡量数据集中其他图片是否包含输入句子中提及的相似场景。然而,由于图片与文本之间存在天然的语义鸿沟,因此实现这个目标并不容易。为此,我们首先利用image caption模型[18]将图片转化为文本描述,然后将输入句子和文本描述之间的cos相似度视为文本节点和图片节点之间的边。

模态内关系:就像前面提到的,当不同的图片中包含着相同类型的视觉对象时,清晰的视觉对象区域比模糊的视觉对象区域更容易识别文本中的命名实体标签。为此,我们建立了一个模态内关系图从数据集中收集与输入图片包含相同类型视觉对象的其它图片。下面,我们将详细介绍如何构建模态内关系图的顶点和边:

  • 顶点:对于数据集中的每张图片,我们将从预训练ResNet中提取的图片特征作为图片节点,其中当前输入图片对应的特征表示作为中心节点。

  • 边:我们的目标是衡量数据集中的其他图片是否包含与输入图片相同类型的视觉对象。显然,ResNet没有能力获得图片中的视觉对象区域。因此,我们首先利用目标检测模型Faster-RCNN为每张图片生成一组视觉对象,然后将输入图片和数据集中其它图片的视觉对象表示之间的余弦相似度作为图片节点之间的边。

我们使用图卷积神经网络来建模这两种外部匹配关系,为每个模态生成关系增强的特征向量。此外,和以前的方法一样,我们通过多模态交互模块建模了图片和文本之间的内部匹配关系,最后,我们使用条件随机场[4]对文本表示进行解码,识别出文本序列中包含的命名实体。

04

实验

我们在两个公开的数据集Twitter2015和Twitter2017上进行实验,结果如表 1 所示,我们报告了整体的Precision, Recall和F1 score,以及每种实体类型的F1 score。与之前的工作一样,我们主要关注整体的F1 score。实验结果表明,与UMT和UMGF等多模态NER模型相比,R-GCN在两个数据集上都取得了有竞争力的结果。值得一提的是,我们的R-GCN模型在F1 score上分别超出了目前性能最好的模型UMGF 1.48%和1.97%。此外,从单个实体类型来看,R-GCN在Twitter2015数据集上最多超过UMGF 1.86%,在Twitter2017数据集上最多超过UMGF 5.08%。这些结果验证了我们模型的有效性。

表1:主实验结果

86543e75814b6fba1d08f6b2a81be15c.png

2: 模态内关系模块和模态间关系模块的消融实验结果

f0a272dba8c37c929437bbbd8b183beb.png

为了研究单个模块和多个模块的组合对模型整体效果的影响,我们对 R-GCN 中的两个模块进行了消融研究,即模态内关系模块(IntraRG)和模态间关系模块(InterRG),从表2中我们可以得出以下结论:

1. 移除任意一个模块都会使总体性能变差,这验证了利用数据集中不同(图片,文本)对中的外部匹配关系来提升MNER任务性能的合理性。同时移除IntraRG和InterRG模块后性能进一步下降,这说明IntraRG和InterRG这两个模块从不同的视角提升了MNER任务的性能;

2. 与Intra-RG相比较,Inter-RG对R-GCN模型的影响更大。这是因为我们主要依靠文本序列来预测NER标签。因此,将相似的图片信息聚集到文本序列中对我们模型的贡献更大,这与我们的期望是一致的。

039595d2b2463cd84d4e65bd97f7909b.png

图4:案例分析

05

案例分析

为了更好的理解IntraRG模块和InterRG模块的作用,我们定性地比较了我们的方法与当前性能最好的两个方法UMT和UMGF的结果。在图4(a)中,句子中的命名实体“KyrieIrving”没有出现在对应的图片中,所以UMT和UMGF错误地将该实体预测为了“MISC”。然而,在InterRG模块的帮助下,该句子可以与数据集中的其他图片建立联系,考虑到这些相关的图片中都包含了视觉对象person,因此模型给出了正确的标签预测“PER”。在图4(b)中,显然视觉对象区域是模糊的,这为命名实体的识别带来了很大的挑战,因此UMT和UMGF都认为句子中没有命名实体。但是在 IntraRG 的帮助下,我们将包含清晰视觉对象区域的相似图片聚合到当前图片中从而做出正确的预测,因为这些清晰的视觉对象区域降低了识别命名实体的难度。

08a68e35f1bfa7eca91caad9f504a517.png

图5:错误类型分析

06

错误分析

此外,我们还对模型进行了错误分析。具体来说,我们随机抽取了R-GCN模型预测错误的100个样例,并将其归纳为三种错误类型。图5展示了每种错误类型的比例以及一些代表性示例。

1. 第一类为标注带来的偏差,在图5(a)中,命名实体“Pebble Beach Residence”被标注为“ORG”,但如果我们将其标注为“LOC”也是合理的,在这种情况下,我们的模型很难区分它们,因为它们都是正确的。

2. 第二类为背景知识缺乏,在图5(b)中,命名实体“Jonas brother”是一个著名乐队的名字,在缺乏背景知识的情况下,模型很容易将该实体识别为“PER”

3. 第三类为信息缺失,在图5(c)中,句子非常的短,图片中的内容也很简单,它们不能为模型提供足够的信息来判断实体类型。

对于这几类典型的错误,未来应该会有更先进的自然语言处理技术来解决它们。

07

总结

在本文中,我们为多模态NER任务提出了一个新颖的关系增强图卷积网络。我们方法的主要思想是利用不同(图像、文本)对中的两种外部匹配关系(即模态间关系和模态内关系)来提高识别文本中命名实体的能力。大量实验的结果表明,我们的模型比其他先进的方法具有更好的性能。进一步的分析也验证了R-GCN模型的有效性。

在未来,我们希望将我们的方法应用到其他多模态任务中,比如多模态对话或者多模态蕴含。

08

参考文献

[1] Octavian-Eugen Ganea and Thomas Hofmann. 2017. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Copenhagen, Denmark, 2619-2629

[2] Dmitry Zelenko, Chinatsu Aone, and Anthony Richardella. 2002. Kernel Meth-ods for Relation Extraction. InProc. of EMNLP.

[3] Jason P. C. Chiu and Eric Nichols. 2016. Named Entity Recognition with Bidi-rectional LSTM-CNNs. Trans. Assoc. Comput. Linguistic(2016).

[4] Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, and Chris Dyer. 2016. Neural Architectures for Named Entity Recognition. InProc. of NAACL.

[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019.BERT: Pre-training of Deep Bidirectional Transformers for Language Under-standing. In Proc. of AACL.

[6] Di Lu, Leonardo Neves, Vitor Carvalho, Ning Zhang, and Heng Ji. 2018. Visual Attention Model for Name Tagging in Multimodal Social Media. In Proc. of ACL.

[7] Seungwhan Moon, Leonardo Neves, and Vitor Carvalho. 2018.  Multimodal Named Entity Recognition for Short Social Media Posts. In Proc. of NAACL.

[8] Dawei Chen, Zhixu Li, Binbin Gu, and Zhigang Chen. 2021. Multimodal Named Entity Recognition with Image Attributes and Image Knowledge. InProc. of DAS-FAA.

[9] Lin Sun, Jiquan Wang, Yindu Su, Fangsheng Weng, Yuxuan Sun, Zengwei Zheng,and Yuanyi Chen. 2020. RIVA: A Pre-trained Tweet Multimodal Model Based onText-image Relation for Multimodal NER. InProc. of COLING.

[10] Lin Sun, Jiquan Wang, Kai Zhang, Yindu Su, and Fangsheng Weng. 2021. Rp-BERT: A Text-image Relation Propagation-based BERT Model for MultimodalNER. InProc. of AAAI.

[11] Jianfei Yu, Jing Jiang, Li Yang, and Rui Xia. 2020. Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Trans-former. In Proc. of ACL.

[12] Qi Zhang, Jinlan Fu, Xiaoyu Liu, and Xuanjing Huang. 2018. Adaptive Co-attention Network for Named Entity Recognition in Tweets. InProc. of AAAI

[13] Hanqian Wu, Siliang Cheng, Jingjing Wang, Shoushan Li, and Lian Chi. 2020. Multimodal Aspect Extraction with Region-Aware Alignment Network. In Proc. of NLPCC

[14] Zhiwei Wu, Changmeng Zheng, Yi Cai, Junying Chen, Ho-fung Leung, and QingLi. 2020. Multimodal Representation with Embedded Visual Guiding Objects forNamed Entity Recognition in Social Media Posts. InProc. of ACM MM.

[15] Dong Zhang, Suzhong Wei, Shoushan Li, Hanqian Wu, Qiaoming Zhu, and Guodong Zhou. 2021. Multi-modal Graph Fusion for Named Entity Recognitionwith Targeted Visual Guidance. InProc. of AAAI.

[16] Changmeng Zheng, Zhiwei Wu, Tao Wang, Yi Cai, and Qing Li. 2021. Object-Aware Multimodal Named Entity Recognition in Social Media Posts With Ad-versarial Learning. IEEE Trans. Multim.(2021).

[17] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. InProc. of CVPR.

[18] Zaid Khan and Yun Fu. 2021. Exploiting BERT for Multimodal Target Sentiment Classification through Input Space Translation. InMM ’21: ACM Multimedia Con-ference, Virtual Event, China, October 20-24 2021.


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

为什么回归问题不能用Dropout?

Bert/Transformer 被忽视的细节

中文小样本NER模型方法总结和实战

一文详解Transformers的性能优化的8种方法

DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习

苏州大学NLP团队文本生成&预训练方向招收研究生/博士生(含直博生)


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

061edee44289e1b0c3abe18359e80c17.png

记得备注~

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值