原文链接:https://aclanthology.org/2021.acl-long.158.pdf
ACL2021
概述
现有的大多数技术都关注于怎么辨别新闻的真伪,很少有对假新闻背后更深层的原因进行分析,也就是假新闻背后的原因“why”。
本文研究了一种新的概念范式,用于将视觉媒体操纵理解为关于意图、情绪反应、对个人带来的影响还有假新闻整体的一个影响的结构化注释。(感觉就是对恶意p图的图片进行各个方面的解释?比如p图的意图,对于图片中人受到的影响以及这张图对整个社会的一个影响。去理解p图背后更深层次的东西)
在此基础上,作者提出了一个新任务(EMU): Edited Media Understanding Frames,要求对图片为什么会被编辑有一个深度的理解(数据集中一个示例如下图所示)。并提供了用于该任务的一个数据集,该数据集收集了100多个经常用于被ps练习的人物,通过在ps网站搜索这些人名得到有关的2万个图像对,并且使用目标检测模型来确保每张图片中至少存在一个角色。本文还提出了一个新模型PELICAN。
方法
模型的输入数据:1)原图和修改后的图;2)每个重要角色都要用锚框框起来;3)与框架相关的开放性问题;4)还需要用锚狂标记图中哪些被修改。
模型的整体结构如下图所示:
首先使用Faster-RCNN对每张图片提取N个感兴趣区域(这些区域是模型的输入部分)的特征,然后和问题的语言表征一起送入到transformer中。由于transformer中需要添加位置编码,才能使得模型分清楚哪块区域是哪块。因此对这些兴趣区域进行拓扑排序,来生成相应的位置编码。
这里使用根据图片各个区域来建立有向图,并在该有向图上运行拓扑排序,然后根据有序索引给每个图像区域分配embedding。(这部分我完全没看懂!呜呜呜)
实验
使用多个其他模型用于作者提出的EMU任务上,实验结果如下所示:
作者对各种建模属性进行了消融研究,结果如下所示:
其中作者发现即使没有使用预训练模型,效果虽然有所下降但仍然比其他baseline好。表明,与预训练任务中的语义信息相比,该任务需要更多的实用性推断知识。
作者对模型预测正确和错误的示例进行分析:
作者认为提出的模型只能够理解一些比较简单的图像,比如上面那个示例,它能够识别出枪支和行动意味着消极的背景,但对有关情况的反应却有误解。在下面的例子中,我们表明PELICAN能够正确地指代subject1,但却把情况误解为非负数。
作者对模型识别较差的例子进行分类,发现模型主要缺乏的准确描述虚假信息的常识(基于事件和社会),以及关于地理和政治的外部知识。在与描述有关的属性方面也仍然会出现错误:描述重要变化以外的东西和不准确的地方(如错误的颜色)是最常见的。
总结
这是一项语言和视觉任务,要求模型回答开放式问题,以捕捉图像编辑的意图和意义。作者提出的PELICAN,在数据集上取得了比较好的效果,并且48.2%的时间里都认为其答案是准确的。
(感觉就是自己新创建了一个任务,然后用其他模型的结果进行对比。整个结构也没有很新颖的地方,不过还是没有很懂为啥要建立一个有向图后,进行拓扑排序得到位置编码。不可以直接对图像进行位置编码吗?就像用transformer处理图像一样,难到这个图像不是整张图?是图像中的部分?所以需要这样来加入位置编码?但是感觉还是有点奇怪,可能我没咋看懂吧。)