论文1
【paper——1】Exploiting BERT For Multimodal Target Sentiment Classification Through Input Space Translation
摘要:
多模态目标/方面情感分类结合了多模态情感分析和方面/目标情感分类。任务的目标是结合视觉和语言来理解句子中对目标实体的情感。推特是这项任务的理想环境,因为它天生多模态,高度情绪化,并影响现实世界的事件。然而,多模态推文很短,并伴随着复杂的,可能不相关的图像。我们引入了一个双流模型,该模型使用对象感知转换器在输入空间中转换图像,然后使用单程非自回归文本生成方法。然后,我们利用翻译来构建一个辅助句子,为语言模型提供多模态信息。我们的方法增加了语言模型可用的文本量,并提取了复杂图像中的对象级信息。我们在两个多模态推特数据集上实现了最先进的性能,而没有修改语言模型的内部来接受多模态数据,证明了我们翻译的有效性。此外,我们解释了一种流行的方面情绪分析方法在应用于推文时的失败模式。
关键词
情绪分析,BERT,深度学习,视觉语言,推特
主要内容
对于具有图像和叙事文字的推文,利用图像所携带的情感和附加的上下文进行情感分析。
虽然方面情绪分析和多模态情绪分析是已建立的领域,但多模态方面情绪分析——两者的结合——相对较新。并且直接将方面情绪分析或多模态情绪分析开发的方法应用于多模态推文具有一定的困难。原因如下:
- 带有图像的推文比通常用于方面情绪分析的评论文本更短,信息量更少。
- 与通常用于多模态情感分析的人类说话视频相比,推文的视觉模式更可能不相关/有噪音。
- 推文的视觉场景比单个人类说话的视频复杂。
为了解决这些问题:本篇论文提出了一个模型即采用一种用于对象检测的转换器结构来生成文本,然后使用生成的模型将图像转换到预训练语言模型的输入空间。然后,通过构造一个辅助句子将翻译后的图像输入到一个伯特语言模型中,并使用生成的编码进行多模态方面情绪分析。这个模型解决了两个问题:
- 增加了语言模型可用的文本量。
- 翻译保留了适合理解社交媒体图像的复杂场景信息。
论文的贡献如下:
- 一种新的多模态方面情感分析架构,该架构在输入空间中进行翻译,并通过一个大型预训练语言模型利用辅助语句进行融合。
- 作者调查并解释了在短文本twitter环境中最先进的方面情绪分析模型的性能下降。
- 采用DETR体系结构来生成非自回归文本。