Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News

检测跨模态不一致以防范神经性假新闻

        在网上大规模传播旨在误导或欺骗普通民众的虚假信息是一个重大的社会问题。图像、视频和自然语言生成模型的快速发展只会加剧这种情况,并加剧我们对有效防御机制的需求。虽然已经提出了现有的方法来防御神经假新闻,但它们通常局限于非常有限的环境,即文章只有文本和元数据,如标题和作者。在本文中,我们介绍了一项更现实、更具挑战性的任务,即防御机器生成的新闻,其中也包括图像和图像标题。为了识别对手可能利用的弱点,我们创建了一个由4种不同类型的生成文章组成的NeuralNews数据集,并基于该数据集进行了一系列人类用户研究实验。除了从我们的用户研究实验中收集到的有价值的见解外,我们还提供了一种基于检测视觉语义不一致的相对有效的方法,这将成为有效的第一道防线,并为未来防御机器生成的虚假信息的工作提供有用的参考。

1.介绍

       计算机视觉中生成模型的快速发展(Goodfellow等人,2014;张等人,20172018;Choi等人,2018)和自然语言处理(Jozefowicz等人,2016;Radford等人,20182019)导致人工智能生成逼真新闻文章的可能性增加。恶意使用这种技术可能会带来一个重大的社会问题。Zellers等人(2019)报告称,人类很容易被人工智能产生的宣传所欺骗。通过操纵这种技术,对手将能将大量的网络虚假信息迅速传播。虽然预训练的生成模型本身是我们最好的防御手段是有希望的(Zellers等人,2019),但事先了解对手使用的模型往往是一项挑战。更重要的是,它忽略了一个事实,即新闻文章通常附有带标题的图像

图1:我们提出了一种检测机器生成的新闻文章的方法。以前的工作只使用文章内容和元数据,包括标题、日期、域和作者。然而,新闻文章通常也包含照片和标题。我们建议利用文章文本、图像和标题之间可能存在的视觉语义不一致,例如名称实体缺失或不一致(红色下划线)。

       在这篇文章中,我们提出了用图像和图像标题来抵御神经假新闻的第一道防线。据我们所知,我们是第一个解决这一具有挑战性和现实性的问题的人。在假设对抗性文本生成器事先未知的前提下,我们建议基于语言和视觉成分之间的语义一致性来评估文章。虽然双向图像句子检索的最先进方法在MSCOCO和Flickr30K等标准数据集上利用视觉语义一致性取得了巨大成功,但我们在附录D中显示,它们无法有效地推理图像中的对象以及标题和文章正文中的命名实体。

      这是由于这些数据集的分布存在差异,因为标准数据集中的图像标题通常包含一般术语,包括妇女或狗,而不是新闻文章标题中通常包含的命名实体,如Betram夫人和金毛寻回犬。此外,图像通常与它们所关联的文章没有直接关系。例如,在图1中,文章提到了英国首相。然而,它只包含英国国旗的图像。

        为了解决这个问题,我们提出了DIDAN,这是一种简单但令人惊讶的有效方法,它利用文本和图像/图像标题之间可能存在的语义不一致来检测机器生成的文章。例如,请注意,图1中的文章和标题实际上提到了不同的总理。除了评估图像和标题与文章的语义相关性外,DIDAN还利用文章和标题中命名实体的共同出现来确定真实性得分。真实性得分可以被认为是一篇文章是人为生成的概率。我们采用了一种常用于图像句子检索的学习范式,其中模型被训练来推断图像和不匹配图像标题之间的差异。在这种情况下,负样本是文章和非对应的图片标题对。当对抗性生成模型未知时,这不仅是一种合理的方法,而且我们从经验上表明,即使在训练期间访问机器生成的样本,也要以高置信度检测机器生成的文章,这一点至关重要。更重要的是,这意味着DIDAN可以很容易地接受大量在线新闻文章的培训,而无需额外的很高代价的注释。

        为了研究这种威胁,我们构建了NeuralNews数据集,其中包含人工和机器生成的文章。这些文章包含标题、正文以及图片和标题。人工生成的文章来源于GoodNews数据集。使用相同的标题和文章主体作为上下文,我们使用GROVER生成文章。我们没有使用GAN生成的图像,即使在训练期间不接触它们也很容易检测,而是考虑了用原始图像完成文章的更困难的设置。我们包括使用SOTA实体感知图像标题模型生成的真实字幕和生成字幕(Biten等人,2019)。我们展示了一系列实证和用户研究实验的结果和发现。在用户研究实验中,我们使用4种类型的文章,包括真实新闻和生成新闻,来确定人类最容易受到什么影响。从这些发现中得出的见解有助于识别对手可能利用的弱点来制造神经假新闻,并为防御这种威胁提供有价值的参考。最后但同样重要的是,我们的实验结果为该领域的未来研究提供了一个有竞争力的基线。

总之,我们的贡献是多方面的:

1。我们介绍了一项新颖而富有挑战性的任务,即针对包含图片说明对的完整新闻文章进行辩护。据我们所知,这是第一篇同时涉及视觉和语言方面的论文,以防范神经假新闻。

2.我们介绍了NeuralNews数据集,该数据集包含人工和机器生成的带有图像和标题的文章。

3.我们从我们的实证和用户研究实验中提出了有价值的见解,这些实验确定了可利用的弱点。

4.我们提出了DIDAN,这是一个有效的基于命名实体的模型,可以作为防御神经假新闻的良好基线。最重要的是,我们从经验上证明了用文章和不匹配的图像和图像标题进行训练的重要性,即使在已知对抗性生成模型的情况下也是如此。

2.相关工作

3 NeuralNews数据集集合

      为了促进我们研究这一威胁的努力,我们引入了 NeuralNews 数据集,该数据集由人类和机器生成的带有图像和标题的文章组成。它为人工智能支持的虚假信息提供了一个有价值的测试平台,对手目前可以利用这些虚假信息,但最难检测到。人类生成的文章来自 GoodNews(Biten et al., 2019) 数据集,该数据集由2010 年至 2018 年的《纽约时报》新闻文章组成。每篇新闻文章都包含标题、主要文章正文以及图像标题对。请注意,我们从真实文章中获取原始图像,因为机器生成的图像相对容易检测(Wang 等人,2019)。在我们的数据集中,我们将每篇文章的图像标题对的数量限制为最多 3 个。实证和用户研究实验中使用的整个数据集包含以下 4 种类型的文章(参加附录E中的示例):

A)真实文章和真实图像标题

B)真实文章与生成图像标题

C)生成文章与真实图像字幕

D)生成文章和生成图像标题

       我们总共收集了每种物品类型的约32K个样本(总计约128K个)。为了收集机器生成的新闻文章,我们使用GROVER(Zellers等人,2019)使用GoodNews数据集的原始标题和文章作为上下文生成虚假文章。C类文章是通过合并原始图片-标题对来完成的。

       在B类和D类文章中,我们使用实体感知图像标题模型(Biten等人,2019)基于文章生成虚假图像标题。我们相信,这个数据集为抵御神经新闻提供了一个现实而富有挑战性的环境。

表1:NeuralNews 128K篇文章的数据集统计数据。请注意,这两种类型的文章的图像都是聚合的,因为生成的文章使用与其对应的真实文章相同的图像(但不同的文章和/或标题)。

       数据集统计信息。表1提供了我们的Neural News数据集中文章长度和图像数量的统计数据。大多数文章的正文最多包含40句话。此外,尽管大多数文章只有一张图片和标题,但仍有相当大的18.2%的文章有3张图片。我们相信,这种设置将为未来研究使用不同数量图像和标题的方法提供一个具有挑战性的试验台。

4.用户研究实验

       我们试图通过几项用户研究来确定人类对不同类型的神经假新闻的敏感性。为此,我们基于NeuralNews数据集进行了一系列用户研究实验。用户研究结果提供了重要信息,帮助我们识别对手可以利用的突出点。我们的所有实验都使用了具备所需英语水平的合格亚马逊机械土耳其人。下面我们简要介绍一下实验设置。有关每个设置的提示和响应选项的模板,请参阅附录A。

目标是通过要求参与者使用四分制评估文章的风格、内容、文本和图像之间的一致性以及整体可信度,了解人类在决定文章真实性时考虑的定性因素,其中得分越高表示信任度越高。

仅限文章的用户预测:给定标题不包含图像和标题的文章,人类能否检测到它们是否为机器生成的?当一篇文章只包含标题和正文时,我们要求参与者预测文章是否是假的。在这个变体中,参与者会得到提示,注意文本和标题之间可能存在的不一致。这样做的目的是在以下实验中理解图像字幕对在该任务中提供的视觉语义提示的重要性。

原始的用户预测:人类能辨别一篇文章是真实的还是在没有事先接触生成文章的情况下生成的吗?在这个实验中,参与者被要求根据自己的判断来决定文章是人类还是机器在阅读后生成的。这项实验背后的直觉是确定人类在没有事先曝光的情况下识别假新闻的能力。

训练过的用户预测:如果事先被告知要注意哪些方面,人类是否能够检测到生成的文章?我们通过向参与者展示人类和机器生成的文章的例子,为他们提供有限的培训,这些文章特别强调了文章和图片和图片标题对之间的语义不一致。然后,我们要求经过培训的参与者确定一篇文章是人为还是机器生成的,就像为原始用户预测所做的那样。

4.1用户研究结果

       图2报告了我们可信度实验的结果,参与者评估了文章的总体可信度,但没有被要求确定它是真实的还是机器生成的。这些结果表明,人类通常难以就图像和文本(文章正文和图像标题)之间的语义相关性达成一致,这从他们的反应中的巨大差异中可以明显看出。我们假设文章和图片之间存在松散的联系(1)这是一个可能的因素。对手可以很容易地利用这一点来传播看起来逼真的神经假新闻。因此,探索文章文本和图像之间的视觉语义一致性可能是防范虚假信息的重要研究领域。虽然令人放心的是,在不同的文章类别中,人类生成的文章的总体可信度最高,但这些结果也突显了人类容易被生成的神经虚假信息欺骗。

图2:可信度结果。可信度实验中4种文章类型的人工评价。人员被要求根据文章的风格、内容、一致性和整体可信度来评估文章。我们观察到,无论文章类型如何,人们通常都很难决定文章的整体可信度。提示和响应选项可在附录A中找到。

 

表2:用户预测结果。我们报告了在给定不同类型的信息和/或培训的情况下,能够准确地将文章分类为人工生成或机器生成的参与者的百分比(更多详细信息,请参阅第4节)。更深入的结果分类见附录B。

        表2报告了能够从其他用户研究实验中准确检测出人类和机器生成的文章的参与者的汇总百分比。有关结果的完整分类,请参见附录B。经过培训的参与者如果选择了4个回答中的任何一个,表明图像与文章或标题之间的视觉语义不一致,则被视为对B类文章进行了正确分类。天真的用户和受过训练的用户在B类文章的检测准确性方面的显著差异表明,人类通常不太关注在线新闻中的图像标题。然而,同样令人放心的是,14%以上的参与者能够在之前的接触后检测到它们。

        我们预测,鉴于SOTA神经语言模型和图像字幕模型的现状,C类文章将是对手最有可能利用的神经虚假信息类型。虽然最近的神经语言模型能够生成看起来逼真的文本,但SOTA图像标题模型通常不能生成质量相当的字幕。通常,生成的标题包含命名实体的重复实例,没有任何停用语。

       总之,令人担忧的是,人类特别容易被表2中的C型和D型文章欺骗。然而,我们认为,具有真实文章内容和生成标题的B类文章的传播影响较小。由于生成的标题只占整篇文章的一小部分,因此传达的信息不太可能误导人们。相比之下,C类文章由于其生成的文章内容,有可能被对手利用来传播大量误导性虚假信息。因此,我们提出的方法是为了解决这一特定类型的生成文章

5 DIDAN:检测跨模态不一致以抵御神经假新闻

       在我们的任务中,目标是检测机器生成的文章,这些文章还包括图像和标题。图1中的例子指出了一个固有的挑战:识别图像和文本之间的间接关系。

        由于测量视觉语义相似性的普遍需要,直观的第一步是将方法建立在SOTA双向图像句子检索中常用的图像句子相似性推理模型的基础上。我们从其令人沮丧的表现(表9)中假设,图像句子检索模型不善于将文章中的命名实体与图像中的对象联系起来。这表明,文章正文中有关命名实体的上下文信息是必不可少的。

       作为第一道防线,我们提出了我们命名的基于实体的方法DIDAN。除了整合文本中的上下文信息外,DIDAN还考虑了文章正文和标题中命名实体的共同出现,以检测可能的视觉语义不一致。这是基于一个简单的观察,即标题通常包含对主体中存在的命名实体的提及。DIDAN接受过真实文章和生成文章的培训。为了训练我们的模型来检测图像和文本之间的视觉语义不一致,我们还采用了图像-句子相似性模型的学习范式。在这种情况下,负样本是真实的,但文章及其图片说明对不匹配。

图3:我们提出的DIDAN模型概述。为了解释文章中的命名实体和图像中的实体之间的关系,DIDAN将文章上下文集成到从细粒度的逐词交互中学习到的视觉语义表示中。上述视觉语义表示用于推断整个新闻文章的真实性得分。

       DIDAN的说明性概述如图3所示。文章A由一组句子S组成,其中S={S1;...SA};下垂每个句子Si包含一个单词序列{W1;...Wi};文章还包括一组图像-图像标题对,其中每个图像I由一组区域对象特征{O1;...OI}表示;并且每个标题C包含单词序列C={w1;...wI};Spacy的命名实体识别模型(Honnibal和Montani,2017)用于检测文章和图像标题中的命名实体。dT、dI和dvse分别用于表示文本和图像表示的初始维度以及隐藏维度。每个句子都用BERT模型(Devlin等人,2018)标记和编码,该模型在BooksCorpus(Zhu等人,2015)和英语维基百科上进行了预训练。

5.1文章表征

       为了从文章中提取相关的语义上下文,我们从计算句子表征开始。对于文章A中的每个句子Si,单词表示首先被投影到文章子空间中,如下所示:

       其中Vi表示Si中的所有单词嵌入。对于给定的句子Si,其表示S i f为其所有单词表示的平均值,其中下标f表示相应的表示。反过来,文章A的文章表征Af被计算为其所有句子表征的平均值。

5.2视觉语义表示

        我们的方法利用从图像和标题中学习到的特定于单词的图像表示,来确定它们与文章的相关性。图像标题由特征矩阵:表示,图像由对象特征矩阵表示。如前一节所述,使用以下方法将图像标题和图像对象特征的单词嵌入,投影到公共可视化语义子空间中:

       这些视觉语义表示的一个关键特性是,它们建立在图像标题中的单词和图像中的对象之间的细粒度交互之上。首先,分别为每对可能的投影单词和对象特征wl、vk计算语义相似性得分。

        其中nc和no分别表示字幕和图像中的单词和对象的数量。这些相似性得分在对象上被归一化,以确定每个对象相对于标题中的单词的显著性。

        基于归一化的注意力权重,将特定于单词的图像表示计算为对象特征的加权和:

5.3 探测器

       我们的方法的一个关键贡献是使用了指示符功能,该功能指示标题是否提及文章主体中存在的命名实体。文章表示和特定于单词的图像表示的平均值被连接以创建被传递到鉴别器中的标题特定的文章表示:

     其中concat{}表示串联运算,bc是二进制指示符特征。关键点是文章上下文被集成到特定于标题的文章表示中。我们的鉴别器(图3)是一个简单的神经网络,由一系列全连接(FC)、整流线性单元(ReLU)、批量归一化(BN)和Sigmoid形层组成。它为每个图片-图像标题对输出真实性分数。

       回想一下,在我们的问题公式中,新闻文章可以包含不同数量的图像和标题。一篇文章的最终真实性分数是通过图片和标题来确定的。它可以被认为是一篇文章是人为生成的概率。真实性得分是在文章中的一组图像和标题中计算的,如下所示:

      其中pIA是图像-图像标题对I相对于文章A的真实性得分。直观地,如果图像-图像标题对被认为与文章主体相关(得分接近1),则最终真实性得分也将接近1。

      整个模型采用二进制交叉熵损失进行端到端优化。

       其中I−表示关于文章的图像和标题的不匹配集合,y是文章的基本实体标签。负样本(图片及其标题)是从同一小批次中的其他文章中取样的。

        给定NeuralNews数据集中的一篇新闻文章,我们的目标是自动预测它是人工生成的还是机器生成的。我们将DIDAN与几个基本算法进行比较,根据文章被正确标记的频率来评估性能。请注意,在我们的实验中,只使用A类和C类文章。这是因为生成的标题通常包含命名实体的重复实例,而没有任何停用词,这对人类来说并不具有检测挑战性(见表2)。为了理解DIDAN的每个组成部分和新闻文章的每个部分的重要性,我们用消融实验来补充我们的分析。

5.4实施细节和基线

        我们的模型是使用Pytorch实现的。在我们的实现中,Bert基和对象区域特征d T和d I的维度分别设置为768和2048。我们还将视觉语义嵌入空间d vse的维度设置为512。

        图像区域表示是用自下而上的注意力(Anderson等人,2018)模型提取的,该模型在视觉基因组上进行了预训练(Krishna等人,2017)。语言表示是从预先训练的BERTBase模型中提取的(Devlin等人,2018)。我们采用1e−3的初始学习率,并使用ADAM优化器端到端地训练我们的模型。

       除了对我们的模型进行消融外,我们还使用标准相关分析(CCA)(典型相关分析是用来探索两个多变量(向量)之间之间的关联关系的,这两个多变量来自于一个相同的个体 )与基线进行了比较,该分析学习了两组配对特征之间的共享语义空间,以及GROVER鉴别器。

       在我们的CCA实现中,图像被表示为其对象区域特征的平均值,图像标题被表示为它的单词特征的平均数。我们在文章特征(第5.1节)以及图像和标题特征的串联之间应用CCA。

表3:NeuralNews数据集上机器生成(GROVER Mega)与真实新闻检测的结果。我们展示了在训练时间内,当生成的文章数量有限时,在生成的(GROVER Large或GROVER Mega)文章和图像字幕对上训练的DIDAN变体的性能。不匹配表示真实数据,但图像和标题与文章正文不符。在使用或不使用不匹配数据训练的变体中,真实文章和机器生成文章的百分比不会发生变化。

       CCA中的投影矩阵是从构成文章的正样本及其相应的图像和标题中学习的。GROVER鉴别器是一种简单的神经网络,用于(Zellers等人,2019)根据文章文本和元数据检测自己生成的文章。我们训练GROVER鉴别器时没有不匹配的数据,也没有图像或图像标题。仅在真实新闻上进行培训。表3显示,与CCA相比,当在没有任何生成示例的情况下(即,将不匹配的真实新闻作为负样本)进行训练时,我们的方法显著提高了检测精度。我们的命名实体指示器(NEI)功能在这个最困难的设置中提供了很大的改进。(表3的前三行)

       使用生成的样本进行培训。我们考虑现实的设置,生成的文章可能可用,但生成器不可用。我们在表3的倒数第二列中报告了在Grover Mega生成的文章上训练DIDAN变体时所实现的性能。请注意,GROVER鉴别器获得的结果,类似于我们的纯文本变体,比(Zellers等人,2019)中报告的结果差得多。这是因为我们用BERT表示来训练它,而不是利用GROVER学习的表示来检测它自己生成的文章。基于结果的一致趋势,对来自测试数据中出现的同一生成器的生成文章进行训练,可以提高神经网络检测它们的能力。二进制NEI特征也被证明对提高DIDAN的检测精度非常有益。有趣的是,即使我们在训练过程中可以访问生成的文章,当对不匹配的真实图像和字幕进行训练时,检测准确率也从68.8%大幅提高到85.6%,这表明视觉语义一致性在防御神经假新闻方面发挥着重要作用。

       Unseen Generator。为了评估DIDAN推广到训练中看不见的生成器创建的文章的能力,我们对GROVER Large生成的文章进行了训练,并对GROVER Mega文章进行了评估(表3的最后一列)。虽然总体准确率下降,但我们观察到了同样的趋势,即我们提出的用不匹配的真实数据进行训练有助于将检测准确率从66.3%提高到77.6%,而去除NEI会降低准确率。

表4:CCA和DIDAN的消融结果的检测准确度相对于新闻文章中各成分的贡献。实验NeuralNews上进行,培训和测试文章由GROVER Mega生成。

        图片与图片标题。表4显示了NeuralNews上我们的模型和CCA的更多消融结果。我们观察到CCA变体与图像的准确性提高了2%。这表明,来自图像的视觉提示可以提供对检测生成的文章至关重要的上下文信息。DIDAN获得的消融结果也证实了这一点,我们观察到图像和图像标题对于检测机器生成的文章是不可或缺的。虽然字幕的贡献是最显著的,但我们注意到,图像提供的视觉提示对于实现最佳检测精度是不可或缺的。

5.5可视化

        在图4和图5中,我们展示了我们的模型对样本文章的预测示例(其他示例可以在附录F中找到)。在图4中,我们观察到DIDAN能够正确地对机器生成的文章进行分类。其中一个合理的原因是标题中的主题与文章正文中提到的人不匹配,DIDAN能够相对容易地理解这一点。然而,图5中的示例为DIDAN提供了一个特别具有挑战性的设置。在这种情况下,标题仅与文章松散相关,图像可能描绘也可能不描绘文章中描述的情况。成功确定这种关系的相关性需要更抽象的推理,这可能是未来工作的一个好方向。

6可利用弱点和防御方向概述

       虽然这并不能完全代表神经假新闻未来带来的所有挑战,但我们相信,这项全面的研究将为针对带有图像和标题的文章提供一种有效的初始防御机制。根据用户评估的结果,如果人类不习惯注意到文章文本和图像之间可能存在的视觉语义不一致,那么他们可能很容易被SOTA模型生成的文章欺骗。对手可以很容易地利用这一事实,通过生成虚假文章并将其与手动来源的图像和标题相结合,制造误导性的虚假信息。

图4:DIDAN正确分类的机器生成文章

图5:机器生成的文章被DIDAN错误地分类。

        令人鼓舞的是,我们的实验结果表明,视觉语义一致性是我们抵御神经新闻的一个重要且有前景的研究领域。

        我们希望未来的工作将解决这项工作的任何潜在局限性,例如扩展数据集以评估不同新闻来源的泛化能力,以及更多种类的神经生成器。未来研究的其他有趣途径是了解元数据在这种多模式环境中的重要性,并研究对包含图像-文本一致性的改进生成器的反击。最后但并非最不重要的是,DIDAN和NeuralNews可以通过评估视觉语义一致性来补充事实验证,以检测一般的人工书写错误信息。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值