Edited Media Understanding Frames: Reasoning About theIntents and Implications of Visual Disinforma

原文链接:https://aclanthology.org/2021.acl-long.158.pdf

 

ACL2021

概述

        现有的大多数技术都关注于怎么辨别新闻的真伪,很少有对假新闻背后更深层的原因进行分析,也就是假新闻背后的原因“why”。

        本文研究了一种新的概念范式,用于将视觉媒体操纵理解为关于意图、情绪反应、对个人带来的影响还有假新闻整体的一个影响的结构化注释。(感觉就是对恶意p图的图片进行各个方面的解释?比如p图的意图,对于图片中人受到的影响以及这张图对整个社会的一个影响。去理解p图背后更深层次的东西)

        在此基础上,作者提出了一个新任务(EMU): Edited Media Understanding Frames,要求对图片为什么会被编辑有一个深度的理解(数据集中一个示例如下图所示)。并提供了用于该任务的一个数据集,该数据集收集了100多个经常用于被ps练习的人物,通过在ps网站搜索这些人名得到有关的2万个图像对,并且使用目标检测模型来确保每张图片中至少存在一个角色。本文还提出了一个新模型PELICAN。

方法

        模型的输入数据:1)原图和修改后的图;2)每个重要角色都要用锚框框起来;3)与框架相关的开放性问题;4)还需要用锚狂标记图中哪些被修改。 

        模型的整体结构如下图所示:

         首先使用Faster-RCNN对每张图片提取N个感兴趣区域(这些区域是模型的输入部分)的特征,然后和问题的语言表征一起送入到transformer中。由于transformer中需要添加位置编码,才能使得模型分清楚哪块区域是哪块。因此对这些兴趣区域进行拓扑排序,来生成相应的位置编码。

        这里使用根据图片各个区域来建立有向图,并在该有向图上运行拓扑排序,然后根据有序索引给每个图像区域分配embedding。(这部分我完全没看懂!呜呜呜)

实验

        使用多个其他模型用于作者提出的EMU任务上,实验结果如下所示:

        作者对各种建模属性进行了消融研究,结果如下所示:

         其中作者发现即使没有使用预训练模型,效果虽然有所下降但仍然比其他baseline好。表明,与预训练任务中的语义信息相比,该任务需要更多的实用性推断知识。

         作者对模型预测正确和错误的示例进行分析:

        作者认为提出的模型只能够理解一些比较简单的图像,比如上面那个示例,它能够识别出枪支和行动意味着消极的背景,但对有关情况的反应却有误解。在下面的例子中,我们表明PELICAN能够正确地指代subject1,但却把情况误解为非负数。

        作者对模型识别较差的例子进行分类,发现模型主要缺乏的准确描述虚假信息的常识(基于事件和社会),以及关于地理和政治的外部知识。在与描述有关的属性方面也仍然会出现错误:描述重要变化以外的东西和不准确的地方(如错误的颜色)是最常见的。

总结 

         这是一项语言和视觉任务,要求模型回答开放式问题,以捕捉图像编辑的意图和意义。作者提出的PELICAN,在数据集上取得了比较好的效果,并且48.2%的时间里都认为其答案是准确的。

        (感觉就是自己新创建了一个任务,然后用其他模型的结果进行对比。整个结构也没有很新颖的地方,不过还是没有很懂为啥要建立一个有向图后,进行拓扑排序得到位置编码。不可以直接对图像进行位置编码吗?就像用transformer处理图像一样,难到这个图像不是整张图?是图像中的部分?所以需要这样来加入位置编码?但是感觉还是有点奇怪,可能我没咋看懂吧。)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值