COLING'22 | 不同数据,不同模态!用于社交媒体多模态信息抽取的有效数据分割策略...

每天给你送来NLP技术干货!


来自:知识工场

信息抽取任务,例如命名实体识别、关系抽取以及情感分析,是挖掘社交媒体信息的重要步骤(任务)。多模态信息抽取任务在传统的信息抽取任务基础上额外引入了图像,可以为文本补充语义信息来消除歧义,近些年受到人们的广泛关注。

然而,理解社交媒体上的信息并不总是需要图像。有时仅仅使用文本信息便可以正确地抽取出信息,而当与文本附随的图像与文本本身不相关时,图像信息便会损害到模型的表现。如下图所示,图中左半部分为命名实体识别任务的示例,当只有文本的情况下,预训练模型(BERT等)通过预训练任务学习到的知识可以将“Nasa”的类型预测为ORG(组织),而如果模型考虑其附随的“不匹配”的图像,模型将会受图中“人物”的影响将“Nasa”预测为PER(人)。同理,图中右半部分的关系抽取任务在只有文本的情况下可以通过文本中的marriage判断出“Angel”和“Jesenia”的关系为couple,而受图片的影响,可能会导致模型将二者的关系预测为colleague。

600c8a1efb843211a9ec436b2512f588.png

因此,本文认为在多模态关系抽取任务中不同模态的数据应该考虑不同的模态信息,一些数据更加适合多模态(文本和图像)模型,而其它的数据则更适合单模态(文本)模型。为了判断数据更适合哪个模态,本文提出了一种数据鉴别器来判断数据适合的模态,由于缺少有关的监督数据,本文使用强化学习来训练该数据鉴别器。

本文研究成果已被COLING2022接收。

e22b2d65550818d5615f0b3f267a70d9.png

一、整体框架

本文框架如下图所示,主要由data discriminator、multimodal model、unimodal model以及reward function组成。其中multimodal model以及unimodal model可以是对应的任何已经存在的信息抽取模型。训练流程如下所示:

1. 给定完整的训练集  ,本文按照一定比例将其随机切分为  以及  。

2. 本文使用  训练multimodal model以及unimodal model,并冻结住它们的参数。

3. 本文使用强化学习在  上训练data discriminator,  中的每个数据都会通过data discriminator判断出是更适合于多模态还是单模态。最终,  被分为Multimodal Set   以及Unimodal Set   。本文将multimodal model以及unimodal model在两个集合上的表现差距作为奖励用于训练data discriminator的参数。

e2279abf87930edf280ef7c5985cc4ea.png

二、主要部分

PART 01

Data Discriminator

Data discriminator用于判断一个数据更适合使用多模态模型还是单模态模型进行预测。如框架图右侧所示,其主要由CLIP和MLP组成。其中,CLIP是一个预训练多模态模型,由CLIPTextModel、CLIPVisionMod-el以及Projection Layer三部分组成。

CLIPTextModel对输入的多模态数据的文本信息进行编码得到文本表示,CLIPVisionModel对输入的多模态数据的图像信息进行编码得到图像的表示,接着文本表示和图像表示通过同一个投影层即Projection Layer得到相同空间下同纬度的表示,分别为  以及  。

然后,如下公式所示,本文将  和  进行逐元素相乘后输入到MLP中得到数据更适合多模态模型预测的概率(即更不适合单模态模型预测的概率):

如框架图右侧所示,在计算概率后,还需要使用sampling policy来通过概率判断数据是交由多模态模型预测还是单模态模型预测。在训练阶段,为了鼓励data discriminator进行探索,本文使用Bernoulli sampling,即依概率采样,如当概率为0.8时,将有0.8的概率选择交由多模态模型进行预测,有0.2的概率交由单模态模型进行预测。在预测阶段,本文将概率大于0.5的数据交由多模态模型进行预测,反之交由单模态模型进行预测。

PART 02

Reward Function

由于缺少明确的监督数据,我们使用强化学习的方法来训练data discriminator。强化学习的核心便是如何设计一个好的奖励,其不仅可以用来评估data discriminator选择数据行为的好坏,还可以作为信号调整data discriminator的参数

直觉上,multimodal model在Multimodal Set   的表现  要优于unimodal model在  的表现  ,并且unimodal model在Unimodal Set   的表现  要优于multimodal model在  的表现  。我们使用两个模型在不同集合表现的差异作为奖励R:

其中,  为超参数。

补充:

Q:为什么要将数据集  切分为  以及  ?

A:通过奖励R的计算公式可以看到,本文需要计算multimodal model以及unimodal model在  和  的表现,其中multimodal model以及unimodal model是在  上训练得到的。如果不将数据集  切分为  以及  ,即  与  为同一个数据集,那么由于multimodal model以及unimodal model在  上训练会导致过拟合,二者在  以及  上都会有着极高的表现分数(例如准确率都为0.99)。因此,需要将数据集进行切分,防止模型过拟合导致无法计算表现差异的情况。

PART 03

Training Algorithm

最后,本文通过下图所示算法流程来介绍如何训练data discriminator。

3f65aa01c2f9dded4f5faf1e744d17e7.png

本文首先将训练集  按照一定比例将其随机切分为  以及  ,并使用  训练multimodal model和unimodal model,并冻结它们的参数。

接着,本文初始化data discriminator的参数,并在每一轮迭代中从  随机抽取batch大小为  的数据记为  然后使用data discriminator预测  中每个数据更适合多模态模型的概率,并基于概率使用Bernoulli sampling将  分为多模态集合  以及单模态集合  。

最后,本文按照如下公式更新data discriminator的参数:

其中,  为学习率,  为基于data discriminator的选择向量  被选中的概率,其中  为指示变量,1表示data discriminator最终将数据放入了多模态集合  ,0表示放入了单模态集合  。

三、实 验

PART 01

评估方法

本文首先将multimodal model以及unimodal model在完整的训练集上进行训练,然后评估不同模型在三个测试集上的表现:(1)Unimodal test set;(2)Multimodal test set;(3)Full test set。其中Full test set是原始的测试集,将其输入到训练好的data discriminator后,会得到更适合单模态模型预测的数据集合Unimodal test set以及更适合多模态模型预测的数据集和Multimodal test set。本文将多模态模型在Multimodal test set的预测结果与单模态模型在Unimodal test set的预测结果结合起来,作为本文方法的预测结果。

PART 02

主要结果

本文首先对比了在多模态关系抽取任务上不同模型在不同测试集上的表现。如下图所示,单模态关系抽取模型MTB在单模态测试集Unimodal Test Set上表现最好,在多模态测试集Multimodal Test Set上表现最差,并且多模态关系抽取模型MEGA在Multimoda Test Set上表现最好,在Unimodal Test Set上表现最差。这说明本文训练的data discriminator能够有效地将数据分开,找到数据更适合的模态。并且,本文的方法在Full Test Set上的表现(F1)高出了MEGA 1.69个点,表明了本文提出的方法的有效性。

bb8d1c55b623bd9db62607b960779e8f.png

接着,本文在多模态命名实体识别任务上使用了两个不同的多模态模型,分别为UMT-BERT-CRF以及MAF,并且通过下图的实验结果能够得到与多模态关系抽取任务相同的结论,同时也表明了本文提出的方法可以使用任何已经存在的方法作为多模态模型。

6a2a2a0b2fa3dd663f1a00cc658a41f9.png

085b527148a8a2295cf08993ec3e54d2.png

PART 03

样例分析

为了更直观地展示data discriminator的有效性,本文在命名实体识别任务上进行了样例分析,如下图所示,(a)和(b)为data discriminator输出概率最低的两个样例,即最不适合多模态模型的两个样例,(c)和(d)为data discriminator输出概率最高的两个样例,(e)和(f)为data discriminator输出概率中等的两个样例。可以看出,(a)和(b)中,实体均未在图中出现,在(c)和(d)中,为了判断“Harry Potter and the Philosopher’s Stone”是一个整体,还是会分为“Harry Potter”和“Philosopher’s Stone”两个部分,以及“R.Shemiste”是否为一个人,均需要图像信息的帮助。在(e)和(f)中,文本没有实体并且图像由简单的背景和文字构成,因此使用多模态模型和单模态模型均是适合的。

0f3da54a616b4bd910f0c08d5d7eb42e.png

责任编辑:郭放  图文编辑:王文

a6a6fa41c25ba660b97bc148b84f30b2.gif


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

为什么回归问题不能用Dropout?

Bert/Transformer 被忽视的细节

中文小样本NER模型方法总结和实战

一文详解Transformers的性能优化的8种方法

DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习

苏州大学NLP团队文本生成&预训练方向招收研究生/博士生(含直博生)


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

d57ee863d482ff0d90c09c2ae67f1fc8.png

记得备注~

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 多信息抽取是指从多种不同数据形式中自动抽取和提取信息。这些数据形式可以是图像、文本、语音、视频和其他类型的数据。2022/2023年的多信息抽取将会突破目前的技术瓶颈,实现更高效、更准确的信息提取,以满足日益增长的人工智能应用需求。 在未来的多信息抽取的应用中,将会出现更多基于人工智能技术的语义理解、机器翻译、图像分析、语音识别、自然语言处理、情感分析等领域的研究和应用。这些应用将会更加智能化、便捷化、高效化,能够更好地解决人类面临的各种问题。例如,在医疗领域中,通过多信息抽取技术可以更精准地诊断疾病,提高治疗效果和生存率。在智慧交通领域中,多信息抽取技术可以更准确地掌握路况,提高交通安全和效率。 然而,实现多信息抽取的过程中还面临着一些瓶颈,例如数据稀缺性、多数据不同步、特征融合难度等问题。未来的研究方向将会围绕如何更好地融合多种数据形式,提高数据的可靠性和精准度,提高多信息抽取的整体性能。 总之,未来的多信息抽取将会更加便捷、高效、准确地解决人类面临的各种问题。多信息抽取的发展将会继续推动人工智能技术的进步和应用。 ### 回答2: 2022/2023多信息抽取是指将来人工智能领域的一项新技术。随着信息的不断增长和多样化,如何从大量的数据中提取有价值的信息已经成为业界的一个重要难点。传统的信息抽取技术在处理大规数据时容易出现信息传递不完整,信息重复等问题,这严重阻碍了人工智能技术在现实生活中的应用。 为了解决这个难题,科研人员开始探索多信息抽取的技术。所谓多,是指同一类信息可以通过多种传感器或方式获得,比如图像、声音、文本等。多信息抽取的核心思想是将不同类型的信息进行融合,增加对大数据的理解能力和整体把握能力。 在实际应用时,多信息抽取技术可以应用到如下领域:医疗健康、智能安防、金融等。比如,在医疗领域中,多信息抽取技术可以利用医疗图像、生理数据、病历记录等多种数据源,全面分析患者的病情,提供精准治疗方案。在智能安防领域中,多技术可以通过视频图像、声音、人脸识别等多种手段,进行智能监控,并及时报警快速处置。 总之,2022/2023多信息抽取技术的发展将提高智能技术的整体效能,为科技创新、社会发展提供新契机。同时,随着技术的不断优化,多信息抽取技术的应用场景和范围也将不断拓展。 ### 回答3: 2022/2023多信息抽取是指同时从多种不同的文本、图片、视频、语音等媒介中提取信息的过程。随着信息技术的不断发展和人们对各个方面信息需求的不断增加,多信息抽取成为了提高信息处理效率和准确性的一种有效手段。在2022/2023年,多信息抽取技术将会继续得到发展和应用。 多信息抽取技术的目的是将多种不同类型的信息汇聚起来,进行有效的分类、解析和提取,以便更好地理解这些信息的含义和意义。这项技术的应用范围非常广泛,包括金融、医疗、教育、舆情监测、交通管理等领域。在金融领域,多信息抽取可以对市场趋势、金融分析等方面做出更加准确的判断;在医疗领域,多信息抽取可以对病例资料、医疗图像等进行分析,提高诊断准确率;在教育领域,多信息抽取可以对学生学习状和课堂表现进行分析,为教学提供更具参考性的数据支持。 随着深度学习和自然语言处理技术的发展,多信息抽取的研究和应用也将不断深入。未来,多信息抽取技术将会实现更加高效、高准确的信息处理和提取,为各个领域的发展和智能化进程注入更大的活力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值