Edited Media Understanding Frames: Reasoning About theIntents and Implications of Visual Disinforma

pepsi_w

已于 2023-05-21 14:40:31 修改

阅读量49

点赞数

分类专栏：论文文章标签：深度学习自然语言处理

于 2023-04-23 21:06:18 首次发布

本文链接：https://blog.csdn.net/wangyumei0916/article/details/130329740

版权

论文专栏收录该内容

39 篇文章 3 订阅

订阅专栏

原文链接：https://aclanthology.org/2021.acl-long.158.pdf

ACL2021

概述

现有的大多数技术都关注于怎么辨别新闻的真伪，很少有对假新闻背后更深层的原因进行分析，也就是假新闻背后的原因“why”。

本文研究了一种新的概念范式，用于将视觉媒体操纵理解为关于意图、情绪反应、对个人带来的影响还有假新闻整体的一个影响的结构化注释。（感觉就是对恶意p图的图片进行各个方面的解释？比如p图的意图，对于图片中人受到的影响以及这张图对整个社会的一个影响。去理解p图背后更深层次的东西）

在此基础上，作者提出了一个新任务（EMU）： Edited Media Understanding Frames，要求对图片为什么会被编辑有一个深度的理解（数据集中一个示例如下图所示）。并提供了用于该任务的一个数据集，该数据集收集了100多个经常用于被ps练习的人物，通过在ps网站搜索这些人名得到有关的2万个图像对，并且使用目标检测模型来确保每张图片中至少存在一个角色。本文还提出了一个新模型PELICAN。

方法

模型的输入数据：1）原图和修改后的图；2）每个重要角色都要用锚框框起来；3）与框架相关的开放性问题；4）还需要用锚狂标记图中哪些被修改。

模型的整体结构如下图所示：

首先使用Faster-RCNN对每张图片提取N个感兴趣区域（这些区域是模型的输入部分）的特征，然后和问题的语言表征一起送入到transformer中。由于transformer中需要添加位置编码，才能使得模型分清楚哪块区域是哪块。因此对这些兴趣区域进行拓扑排序，来生成相应的位置编码。

这里使用根据图片各个区域来建立有向图，并在该有向图上运行拓扑排序，然后根据有序索引给每个图像区域分配embedding。（这部分我完全没看懂！呜呜呜）

实验

使用多个其他模型用于作者提出的EMU任务上，实验结果如下所示：

作者对各种建模属性进行了消融研究，结果如下所示：

其中作者发现即使没有使用预训练模型，效果虽然有所下降但仍然比其他baseline好。表明，与预训练任务中的语义信息相比，该任务需要更多的实用性推断知识。

作者对模型预测正确和错误的示例进行分析：

作者认为提出的模型只能够理解一些比较简单的图像，比如上面那个示例，它能够识别出枪支和行动意味着消极的背景，但对有关情况的反应却有误解。在下面的例子中，我们表明PELICAN能够正确地指代subject1，但却把情况误解为非负数。

作者对模型识别较差的例子进行分类，发现模型主要缺乏的准确描述虚假信息的常识（基于事件和社会），以及关于地理和政治的外部知识。在与描述有关的属性方面也仍然会出现错误：描述重要变化以外的东西和不准确的地方（如错误的颜色）是最常见的。

总结

这是一项语言和视觉任务，要求模型回答开放式问题，以捕捉图像编辑的意图和意义。作者提出的PELICAN，在数据集上取得了比较好的效果，并且48.2%的时间里都认为其答案是准确的。

（感觉就是自己新创建了一个任务，然后用其他模型的结果进行对比。整个结构也没有很新颖的地方，不过还是没有很懂为啥要建立一个有向图后，进行拓扑排序得到位置编码。不可以直接对图像进行位置编码吗？就像用transformer处理图像一样，难到这个图像不是整张图？是图像中的部分？所以需要这样来加入位置编码？但是感觉还是有点奇怪，可能我没咋看懂吧。）

pepsi_w

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Edited Media Understanding Frames: Reasoning About theIntents and Implications of Visual Disinforma

现有的大多数技术都关注于怎么辨别新闻的真伪，很少有对假新闻背后更深层的原因进行分析，也就是假新闻背后的原因“why”。本文研究了一种新的概念范式，用于将视觉媒体操纵理解为关于意图、情绪反应、对个人带来的影响还有假新闻整体的一个影响的结构化注释。（感觉就是对恶意p图的图片进行各个方面的解释？比如p图的意图，对于图片中人受到的影响以及这张图对整个社会的一个影响。去理解p图背后更深层次的东西）
复制链接

扫一扫