COLING'22 | 不同数据，不同模态！用于社交媒体多模态信息抽取的有效数据分割策略...

最新推荐文章于 2024-06-12 08:00:00 发布

zenRRan

最新推荐文章于 2024-06-12 08:00:00 发布

阅读量1.2k

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247514190&idx=4&sn=34c1527fd4fda0ff722183c2c3e52bf9&chksm=eb53acdddc2425cb836171a5ba0cb2f3344174cf43fcce3a3d6a453d6fbefcb77a5799e03042&scene=126&&sessionid=0

版权

每天给你送来NLP技术干货！

来自：知识工场

信息抽取任务，例如命名实体识别、关系抽取以及情感分析，是挖掘社交媒体信息的重要步骤（任务）。多模态信息抽取任务在传统的信息抽取任务基础上额外引入了图像，可以为文本补充语义信息来消除歧义，近些年受到人们的广泛关注。

然而，理解社交媒体上的信息并不总是需要图像。有时仅仅使用文本信息便可以正确地抽取出信息，而当与文本附随的图像与文本本身不相关时，图像信息便会损害到模型的表现。如下图所示，图中左半部分为命名实体识别任务的示例，当只有文本的情况下，预训练模型（BERT等）通过预训练任务学习到的知识可以将“Nasa”的类型预测为ORG（组织），而如果模型考虑其附随的“不匹配”的图像，模型将会受图中“人物”的影响将“Nasa”预测为PER（人）。同理，图中右半部分的关系抽取任务在只有文本的情况下可以通过文本中的marriage判断出“Angel”和“Jesenia”的关系为couple，而受图片的影响，可能会导致模型将二者的关系预测为colleague。

因此，本文认为在多模态关系抽取任务中不同模态的数据应该考虑不同的模态信息，一些数据更加适合多模态（文本和图像）模型，而其它的数据则更适合单模态（文本）模型。为了判断数据更适合哪个模态，本文提出了一种数据鉴别器来判断数据适合的模态，由于缺少有关的监督数据，本文使用强化学习来训练该数据鉴别器。

本文研究成果已被COLING2022接收。

一、整体框架

本文框架如下图所示，主要由data discriminator、multimodal model、unimodal model以及reward function组成。其中multimodal model以及unimodal model可以是对应的任何已经存在的信息抽取模型。训练流程如下所示：

1. 给定完整的训练集，本文按照一定比例将其随机切分为以及。

2. 本文使用训练multimodal model以及unimodal model，并冻结住它们的参数。

3. 本文使用强化学习在上训练data discriminator，中的每个数据都会通过data discriminator判断出是更适合于多模态还是单模态。最终，被分为Multimodal Set 以及Unimodal Set 。本文将multimodal model以及unimodal model在两个集合上的表现差距作为奖励用于训练data discriminator的参数。

二、主要部分

PART 01

Data Discriminator

Data discriminator用于判断一个数据更适合使用多模态模型还是单模态模型进行预测。如框架图右侧所示，其主要由CLIP和MLP组成。其中，CLIP是一个预训练多模态模型，由CLIPTextModel、CLIPVisionMod-el以及Projection Layer三部分组成。

CLIPTextModel对输入的多模态数据的文本信息进行编码得到文本表示，CLIPVisionModel对输入的多模态数据的图像信息进行编码得到图像的表示，接着文本表示和图像表示通过同一个投影层即Projection Layer得到相同空间下同纬度的表示，分别为以及。

然后，如下公式所示，本文将和进行逐元素相乘后输入到MLP中得到数据更适合多模态模型预测的概率（即更不适合单模态模型预测的概率）：

如框架图右侧所示，在计算概率后，还需要使用sampling policy来通过概率判断数据是交由多模态模型预测还是单模态模型预测。在训练阶段，为了鼓励data discriminator进行探索，本文使用Bernoulli sampling，即依概率采样，如当概率为0.8时，将有0.8的概率选择交由多模态模型进行预测，有0.2的概率交由单模态模型进行预测。在预测阶段，本文将概率大于0.5的数据交由多模态模型进行预测，反之交由单模态模型进行预测。

PART 02

Reward Function

由于缺少明确的监督数据，我们使用强化学习的方法来训练data discriminator。强化学习的核心便是如何设计一个好的奖励，其不仅可以用来评估data discriminator选择数据行为的好坏，还可以作为信号调整data discriminator的参数。

直觉上，multimodal model在Multimodal Set 的表现要优于unimodal model在的表现，并且unimodal model在Unimodal Set 的表现要优于multimodal model在的表现。我们使用两个模型在不同集合表现的差异作为奖励R：

其中，为超参数。

补充：

Q：为什么要将数据集切分为以及？

A：通过奖励R的计算公式可以看到，本文需要计算multimodal model以及unimodal model在和的表现，其中multimodal model以及unimodal model是在上训练得到的。如果不将数据集切分为以及，即与为同一个数据集，那么由于multimodal model以及unimodal model在上训练会导致过拟合，二者在以及上都会有着极高的表现分数（例如准确率都为0.99）。因此，需要将数据集进行切分，防止模型过拟合导致无法计算表现差异的情况。

PART 03

Training Algorithm

最后，本文通过下图所示算法流程来介绍如何训练data discriminator。

本文首先将训练集按照一定比例将其随机切分为以及，并使用训练multimodal model和unimodal model，并冻结它们的参数。

接着，本文初始化data discriminator的参数，并在每一轮迭代中从随机抽取batch大小为的数据记为然后使用data discriminator预测中每个数据更适合多模态模型的概率，并基于概率使用Bernoulli sampling将分为多模态集合以及单模态集合。

最后，本文按照如下公式更新data discriminator的参数：

其中，为学习率，为基于data discriminator的选择向量被选中的概率，其中为指示变量，1表示data discriminator最终将数据放入了多模态集合，0表示放入了单模态集合。

三、实验

PART 01

评估方法

本文首先将multimodal model以及unimodal model在完整的训练集上进行训练，然后评估不同模型在三个测试集上的表现：（1）Unimodal test set；（2）Multimodal test set;（3）Full test set。其中Full test set是原始的测试集，将其输入到训练好的data discriminator后，会得到更适合单模态模型预测的数据集合Unimodal test set以及更适合多模态模型预测的数据集和Multimodal test set。本文将多模态模型在Multimodal test set的预测结果与单模态模型在Unimodal test set的预测结果结合起来，作为本文方法的预测结果。

PART 02

主要结果

本文首先对比了在多模态关系抽取任务上不同模型在不同测试集上的表现。如下图所示，单模态关系抽取模型MTB在单模态测试集Unimodal Test Set上表现最好，在多模态测试集Multimodal Test Set上表现最差，并且多模态关系抽取模型MEGA在Multimoda Test Set上表现最好，在Unimodal Test Set上表现最差。这说明本文训练的data discriminator能够有效地将数据分开，找到数据更适合的模态。并且，本文的方法在Full Test Set上的表现（F1）高出了MEGA 1.69个点，表明了本文提出的方法的有效性。

接着，本文在多模态命名实体识别任务上使用了两个不同的多模态模型，分别为UMT-BERT-CRF以及MAF，并且通过下图的实验结果能够得到与多模态关系抽取任务相同的结论，同时也表明了本文提出的方法可以使用任何已经存在的方法作为多模态模型。

PART 03

样例分析

为了更直观地展示data discriminator的有效性，本文在命名实体识别任务上进行了样例分析，如下图所示，(a)和(b)为data discriminator输出概率最低的两个样例，即最不适合多模态模型的两个样例，(c)和(d)为data discriminator输出概率最高的两个样例，(e)和(f)为data discriminator输出概率中等的两个样例。可以看出，(a)和(b)中，实体均未在图中出现，在(c)和(d)中，为了判断“Harry Potter and the Philosopher’s Stone”是一个整体，还是会分为“Harry Potter”和“Philosopher’s Stone”两个部分，以及“R.Shemiste”是否为一个人，均需要图像信息的帮助。在(e)和(f)中，文本没有实体并且图像由简单的背景和文字构成，因此使用多模态模型和单模态模型均是适合的。

责任编辑：郭放图文编辑：王文

📝论文解读投稿，让你的文章被更多不同背景、不同方向的人看到，不被石沉大海，或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

为什么回归问题不能用Dropout？

Bert/Transformer 被忽视的细节

中文小样本NER模型方法总结和实战

一文详解Transformers的性能优化的8种方法

DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习

苏州大学NLP团队文本生成&预训练方向招收研究生/博士生（含直博生）

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注~

zenRRan

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
COLING'22 | 不同数据，不同模态！用于社交媒体多模态信息抽取的有效数据分割策略...

每天给你送来NLP技术干货！来自：知识工场信息抽取任务，例如命名实体识别、关系抽取以及情感分析，是挖掘社交媒体信息的重要步骤（任务）。多模态信息抽取任务在传统的信息抽取任务基础上额外引入了图像，可以为文本补充语义信息来消除歧义，近些年受到人们的广泛关注。然而，理解社交媒体上的信息并不总是需要图像。有时仅仅使用文本信息便可以正确地抽取出信息，而当与文本附随的图像与文本本身不相关时，图像信息便会损害到...
复制链接

扫一扫