假新闻检测论文分享（13）（MVNN）Exploiting Multi-domain Visual Information for Fake News Detection

weixin_41964296

已于 2024-01-21 08:11:51 修改

阅读量393

点赞数

分类专栏：假新闻检测文章标签：自然语言处理

于 2023-09-12 17:32:49 首次发布

本文链接：https://blog.csdn.net/weixin_41964296/article/details/132836885

版权

假新闻检测专栏收录该内容

17 篇文章 22 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

摘要：社交媒体的日益普及促进了假新闻的泛滥。随着多媒体技术的发展，假新闻试图利用带有图片或视频的多媒体内容来吸引和误导读者，从而快速传播，这使得视觉内容成为假新闻的重要组成部分。假新闻图片，即假新闻贴附的图片，既包括被恶意篡改的假图片，也包括被错误地用来表示无关事件的真实图片。因此，如何充分利用假新闻图像的固有特征是假新闻检测的一个重要而又具有挑战性的问题。在真实世界中，假新闻图像可能在物理和语义层面上与真实新闻图像具有明显不同的特征，这在频率域和像素域分别可以清楚地反映出来。为此，我们提出了一种融合频率域和像素域视觉信息的新型框架多域视觉神经网络(MVNN)来检测假新闻。具体来说，我们设计了一个基于cnn的网络，在频域自动捕获假新闻图像的复杂模式;利用多分支CNN-RNN模型提取像素域不同语义层次的视觉特征。利用注意机制动态融合频率域和像素域的特征表示。在真实数据集上进行的大量实验表明，MVNN的准确率至少比现有方法高9.2%，并且可以帮助将多模态假新闻检测的性能提高5.2%以上。

1 介绍

根据现有的研究，假新闻图片(fake-news images，假新闻帖子中附带的图像)不仅包括被恶意篡改的假图像，还包括被错误地用于表示无关事件的真实图像。将假新闻图像大致分为两类:篡改图像和误导图像。篡改图像是指经过数字修改的假新闻图像，如图1a所示，即通常意义上的假图像。误导性图片是指没有经过任何处理，但内容具有误导性的虚假新闻图片，如图1b所示。这些误导性的图像通常来自艺术品或过时的图像，这些图像是在早期事件上发布的。现有的假新闻检测研究主要集中在文本内容和社会上下文，少数工作利用视觉信息进行假新闻检测。已有的工作通过提取取证特征对图片进行权威性评估，但这些取证特征大多是针对特定篡改痕迹进行人工设计的，不适用于具有误导性的图片。其他工作利用VGG19等预训练的卷积神经网络获得通用视觉表示，由于缺乏任务相关信息，难以捕捉假新闻图像的语义共性。因此，如何充分挖掘假新闻图像的内在特征，是利用视觉内容区分假新闻和真新闻的一个重要但具有挑战性的问题。

图1

在物理层面上，假新闻图像可能质量较低，这在频域上可以明显反映出来。例如，在社交平台上多次上传和下载后，误导性图片通常会比真实新闻图片具有更重的重新压缩伪影，例如块效应，如图3所示。此外，篡改后的图像中不可避免地存在篡改痕迹。考虑到经过重压缩和篡改的图像往往在频域呈现周期性，而CNN具有捕捉空间结构特征的能力，可以很容易地对其进行表征，因此设计了一种基于CNN的网络来自动捕捉假新闻图像在频域的特征(见图2顶部)。

图3:假新闻图像与真实新闻图像在物理层面的对比。观察到假新闻图像(a)具有明显的块效应，而真实新闻图像(b)更清晰。为了更好地比较，我们放大了两幅图像的人脸。

在语义层面上，假新闻图像在像素域(也称为空间域)也表现出一些明显的特征。假新闻发布者倾向于利用图片来吸引和误导读者，以实现快速传播;因此假新闻图像往往表现出视觉冲击和情感刺激，如图4所示。这些特征已被证明与许多视觉因素有关，从低阶到高阶；因此，构建了一个多分支的CNN-RNN网络来提取不同语义层次的特征(见图2底部)，以充分捕捉假新闻图像在像素域的特征。

图4:假新闻图像与真新闻图像在语义层面的对比。可以发现，假新闻图像比真实新闻图像更具有视觉冲击力和情感煽动性，即使它们描述的是同一类型的事件，如火灾(a)、地震(b)和道路坍塌(c)。

研究表明，物理和语义层面的视觉特征对检测假新闻图像都很重要;因此，融合频域和像素域的视觉信息具有提升假新闻检测性能的潜力。直观地说，并不是所有的特征都对假新闻检测任务有同等的贡献，这意味着在评估给定图像是假新闻还是真实新闻图像时，一些视觉特征比其他特征发挥着更重要的作用。因此，采用一种注意力机制对不同领域的视觉特征进行动态融合。

图2

综上所述，本文提出了一种多域视觉神经网络(MVNN)框架(见图2)，通过结合频率域和像素域信息来学习有效的视觉表示，用于假新闻检测。所提模型由3个主要组件组成：一个频域子网络和一个像素域子网络，分别用于捕获假新闻图像在物理和语义层面的特征，以及一个融合子网络来动态融合这些特征。综上所述，本文的贡献包括三个方面:

该文首次利用多域视觉信息进行假新闻检测，从物理和语义两个层面捕捉了假新闻图像的内在特征。
提出了一种新的框架MVNN，利用端到端的神经网络同时学习频率域和像素域的表示并有效融合它们。
在真实数据集上进行了大量实验，验证了所提模型的有效性。实验结果表明，该模型远优于现有方法，所学习到的视觉表示有助于大幅提升多模态假新闻检测的性能。此外，本文还证明了频率域和像素域的信息在检测假新闻时是互补的。

2 相关工作

在假新闻检测任务中，主要挑战是如何利用来自不同模态的信息来区分假新闻帖子和真新闻帖子。现有的方法大多集中在文本内容和社交上下文，即新闻在社交网络上传播过程中产生的信息。近年来，视觉信息已被证明是假新闻检测的重要指标[2]，[6]。随着多媒体内容的普及，研究人员开始结合视觉信息来检测假新闻。早期的一些工作利用附加图像的基本统计特征来帮助分类假新闻帖子，如附加图像数量[10]、[24]、图像流行度和图像类型[6]。然而，这些统计特征过于基础，难以表示假新闻中视觉内容的复杂分布。

[6]Z. Jin, J. Cao, Y. Zhang, J. Zhou, and Q. Tian, “Novel visual and statistical image features for microblogs news verification,” IEEE Transactions on Multimedia, vol. 19, no. 3, pp. 598–608, 2017.

[10]K. Wu, S. Yang, and K. Q. Zhu, “False rumors detection on sina weibo by propagation structures,” in IEEE 31st International Conference on Data Engineering (ICDE). IEEE, 2015, pp. 651–662.

[24]F. Yang, Y. Liu, X. Yu, and M. Yang, “Automatic detection of rumor on sina weibo,” in Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics. ACM, 2012, p. 13.

视觉取证特征(Visual forensics features)通常用于图像篡改检测。为了评估附加图像的权威性，一些工作提取了视觉取证特征，如块伪影网格(block artifact grids, BAG)，以辅助假新闻检测。例如，在2015年和2016年MediaEval benchmark 上的多媒体使用验证任务提供了7类图像取证特征，以帮助检测网页多媒体内容的篡改和误导使用。基于这些取证特征，提取高级取证特征，并将其与基于文章和基于用户的特征进行半监督学习，以解决新闻验证问题。然而，这些取证特征大多是为检测特定的篡改痕迹而人工设计的，并不适用于虚假新闻中附带的真实图像。此外，这些手工设计的特征耗费人力且学习复杂模式有限，导致在假新闻检测任务上泛化性能较差。

受CNN力量的启发，现有的基于多媒体内容的作品大多使用预训练的深度CNN，如VGG19来获得一般的视觉表征，并将其与文本信息融合。具体而言，[16]首先通过深度神经网络将多模态内容整合到社交网络中，解决假新闻检测问题;[17]提出了一种基于多模态特征的端到端事件对抗神经网络来检测新出现的假新闻事件;[18]提出了一种新的方法来学习用于假新闻检测的多模态信息的共享表示。然而，这些作品关注的是如何融合不同形态的信息，而忽略了对视觉内容的有效建模。由于缺乏任务相关信息，他们采用的这些视觉特征过于笼统，无法反映假新闻图像的内在特征，从而降低了视觉内容在假新闻检测中的性能。

这里的16、17、18，分别是att-RNN、EANN、MVAE

3 方法

为了克服现有工作的这些局限性，本文提出了一种新的深度学习网络，在物理和语义层面对视觉内容进行建模，以完成假新闻检测的任务。

整体框架

频域子网络首先将输入图像从像素域转换到频域，并利用基于cnn的模型捕获该图像的物理特性
像素域子网络采用多分支CNN-RNN网络提取输入图像不同语义层次的特征
融合子网络通过注意力机制动态融合从频域和像素域子网络得到的特征向量，将输入图像分类为假新闻图像或真新闻图像。

3.1 问题定义

假新闻被定义为故意的、可证实的虚假新闻，可以误导读者，在最近的研究中被广泛采用。与传统定义不同的是，在微博语境中，假新闻指的是用户在社交媒体上发布的通常少于140字的新闻帖子，而不是新闻文章。在形式上，将这一问题定义表述如下：

定义一：“假新闻”，指故意且可证实虚假的新闻帖子。

定义二：假新闻图片:假新闻图片是指在假新闻中附加的图片。本文研究的问题是如何利用视觉内容来识别新闻帖子的真假，也就是将给定的图像分类为假新闻图像或真新闻图像。

正式确定所研究的问题如下:

问题1:给定一组新闻帖子X = {x1, x2，…， xm}，对应图像I = {i1, i2，…， im}，并且标签Y = {y1, y2，…， ym}，学习一个分类器f，该分类器可以利用相应的图像来分类给定的帖子是假新闻(yt = 1)还是真新闻(yt = 0)，即yt = f(it)。

MVNN模型的目标是利用频率域和像素域的视觉信息来评估给定图像是假新闻还是真实新闻图像。

3.2 频域子网络

图像的物理特征可以在一定程度上反映其原创性，有助于识别假新闻；为此，设计了频域子网络，从物理层提取输入图像的特征。根据现有的图像取证研究，离散余弦变换(DCT)已经被广泛用于捕获被篡改和再压缩的结构，因此对输入图像使用DCT将其从像素域转换到频域。考虑到篡改后的图像和再压缩后的图像往往在频域上呈现周期性，具有捕捉空间结构特征的CNN可以很容易地对其进行表征；因此，本文设计了一个基于CNN的网络来捕捉假新闻图像的频域特征。该部分的详细架构如图5所示。

图5:频域子网络的详细架构。对于输入图像，首先将其从像素域转换到频域，并设计一个基于CNN的网络来获得其频域特征表示。

对于输入图像，首先对其进行块DCT处理，得到64个频率对应的DCT系数的64个直方图。按照[28]的方法，对这些DCT系数直方图进行1- D傅里叶变换，增强CNN的效果。考虑到CNN需要固定大小的输入，对这些直方图进行采样，得到64个250维向量，可以表示为{H0, H1，…H63}。每个输入向量经过预处理后，送入共享CNN网络，得到相应的特征表示{w0, w1，…w63}。CNN网络由三个卷积块和一个全连接层组成，每个卷积块由一个一维卷积层和一个最大池化层组成。为了加速模型的收敛，本文将卷积层中的滤波器数量设置为增量。现有的图像取证工作通常只考虑部分频率的系数。然而，作者发现所有频率都有助于假新闻检测的任务，因此本文通过连接来融合所有频率的特征向量，并将最终的特征表示

提供给融合子网。具体来说，本文对不同的融合方法进行了实验，结果表明，在这个任务中，连接的效果最好。

[28] Y.-L. Chen and C.-T. Hsu, “Detecting recompression of jpeg images via periodicity analysis of compression artifacts for tampering detection,” IEEE Transactions on Information Forensics and Security, vol. 6, no. 2, pp. 396–406, 2011.

3.3 像素域子网络

研究表明，在语义层面上，假新闻图像与真实新闻图像具有不同的特征，这表明语义特征在假新闻检测中很重要。因此，设计了像素域子网络，用于在语义层面提取输入图像的视觉特征，其详细架构如图6所示。

图6:像素域子网详细架构。对于输入图像，利用多分支CNN-RNN网络在像素域提取其不同语义层次的特征。

CNN通过从局部视图到全局视图的逐层抽象来学习高级语义表示，其中较早的层更喜欢颜色、线条和形状等低级特征，而较晚的层则倾向于关注对象。在抽象的过程中，底层特征不可避免地会遭受一些损失，这进一步说明了CNN的底层和中间层可以为顶层提供互补的信息。许多研究已经证明，对于某些任务，如显著目标检测和图像情感分类，集成来自不同层的特征可以比仅使用高级特征获得更好的性能。研究表明，假新闻图像通常表现出一定的视觉冲击和情绪挑衅，这被证明与许多从低到高的视觉因素有关。因此，为了充分捕捉假新闻图像的语义特征，构建了一个多分支CNN（具体几个分支，作者通过实验发现4人分支效果最好）网络来提取多个层次的特征，并利用双向GRU (Bi-GRU)网络对这些特征之间的顺序依赖关系进行建模。

如图6所示，CNN网络主要由4个块组成，分别由3 × 3和1 × 1卷积层和最大池化层组成。将输入图像馈送到CNN，从四个分支提取的特征经过1×1卷积层和全连接层，得到相应的特征向量vt, t∈[1,4]。这些特征表示图像的不同部分，如线条、颜色、纹理和物体，它们表征了从局部到全局视图的不同层次的特征。受GoogLeNet中Inception模块的启发，我们使用1 × 1的卷积层来降低维数，增加模型的代表性，因为它增加了非线性激活，促进了不同通道的信息融合。

直观地说，不同级别的特性之间存在很强的依赖性。例如，纹理等中级特征由线条等低级特征组成，同时又由物体等高级特征组成。因此，我们利用GRU对这些低级和高级特征之间的依赖关系进行建模。具体来说，我们将这些不同层次的特征建模为一个序列V = {vt}， t∈[1,4]，其中vt表示从图6所示的CNN网络的第t个分支提取的视觉特征。所以，GRU在时间t处的整个流水线可以表示为：

其中 rt, zt,˜ht, ht分别是复位门,更新门,分别隐藏的候选人,和隐藏的状态。W是权重矩阵，b是偏置。此外，σ表示sigmoid函数，

表示元素乘法。

考虑到不同层次特征之间的依赖关系可以从局部到全局视图和全局到局部视图进行估计;我们利用双向GRU从两个不同的角度对关系进行建模。Bi-GRU包含正向GRU

(从v1读到v4)和反向GRU(从v4读到v1)。

对于每一个时间步t，将前向隐藏状态和后向隐藏状态

串联起来得到隐藏表示，即

，构成最终的语义特征表示

。

3.4 融合子网络

假设图像的物理特征和语义特征在检测假新闻时是互补的。因此，设计一个融合子网来融合这些特征。具体来说，即利用频域子网络和像素域子网络的输出向量进行预测。

表示不同语义层的视觉特征，表示物理层的视觉特征。直观地说，并不是所有的特征对假新闻检测的贡献都是一样的，这意味着在评估给定图像是假新闻还是真新闻图像时，一些视觉特征比其他视觉特征发挥更重要的作用。例如，对于一些篡改痕迹明显的篡改图像，物理特征表现优于语义特征，而对于一些没有经过严重再压缩的误导性图像，语义特征更为有效。因此，可以通过注意力机制突出这些有价值的特征，并计算增强的图像表示如下:

其中Wf为权重矩阵，bf为偏置项，vT为转置的权重向量，F为衡量每个特征向量重要性的评分函数。然后，我们通过softmax函数获得第i个特征向量αi的归一化权值，并计算输入图像的高级表示为不同特征向量的加权和。向量v在训练过程中随机初始化并联合学习。

到目前为止，通过三个子网络获得了输入图像的高级表示u，它在物理和语义两个层面上对该图像的特征进行了建模。我们使用带有softmax激活的全连接层将该向量投影到假新闻图像和真新闻图像两类的目标空间中，得到概率分布:

在本文提出的模型MVNN中，将损失函数定义为预测概率分布与真实情况之间的交叉熵误差：

4 实验

本文在进行实验前，提出3个问题：

MVNN是否能够提高基于视觉模态的假新闻检测性能?
不同的域和其他网络组件：像素域子网络中的注意力、Bi-GRU和分支，在提高MVNN性能方面有多有效?
MVNN是否有助于提高多模态假新闻检测的性能?

4.1 数据集

考虑到基于多媒体内容的假新闻检测是一项相当新的任务，有一些标准的多媒体假新闻数据集可用。使用最广泛的两个数据集是MediaEval验证多媒体使用基准[7]中提供的Twitter数据集和[16]中内置的微博数据集（也就是att-RNN中制作的数据集）。然而，Twitter数据集中存在大量重复图像，导致不同图像的数量少于500，这使得Twitter数据集太小，无法支持所提出模型的训练。因此，在本文中，我们单独在微博数据集上进行实验，以评估所提出模型的有效性。

微博数据集介绍：假新闻是抓取自2012年5月至2016年1月，并通过Weibo1官方辟谣系统进行验证，该系统实际上是文献中收集假新闻帖子的信誉良好的来源。真实新闻与假新闻同期从微博上收集，并经过中国权威通讯社新华社的核实。根据[16]，为了保证整个数据集的质量，删除了重复和非常小的图像。为了确保每个帖子对应于一个图像，纯文本帖子被删除，并且对于包含多个插图的帖子只保存一个图像。该数据集共包含4749个假新闻帖子和4779个带有相应图片的真实新闻帖子。

在本实验中，首先使用K-means算法将所有新闻帖子聚为200个聚类，并将整个数据集分成训练集、验证集和测试集，以确保这些集之间没有事件重叠，进一步防止了模型在事件主题上的过拟合。训练集、验证集和测试集包含的帖子数量约为7:1:2，与EANN中的方法一样。

4.2 Baseline

由于MVNN是以假新闻中的视觉信息为主进行检测的，因此本文选择了几种具有代表性的方法来对假新闻检测的视觉内容进行建模作为基线:

取证特征(FF)+LR:文献[15]提出了新的图像取证特征，并评估了这些特征在检测假新闻中的有效性。采用逻辑回归(LR)算法，利用这些特征进行分类。
预训练的VGG：使用在ImageNet上预训练的19层VGGNet的最后一层的输出，其中特征维数为4096。也使用LR对这些特征进行分类。
微调VGG：在任务相关数据集上微调预训练模型，以在特定任务上实现有希望的性能，这已经成为一种常见的做法。因此，除了Pre-trained VGG外，我们还使用finettuned VGG作为对比实验。特别地，我们使用训练数据对预训练的VGG19进行微调，并使用与预训练的VGG相同的方法提取特征并进行分类。
(ConvAE：自动编码器(ConvAE: AutoEncoder, AE)是一种用于以无监督方式学习高效数据编码的人工神经网络。卷积自动编码器(Convolutional AutoEncoder, ConvAE)通过利用卷积层组成编码器和解码器来扩展AE框架，以获得比普通全连接层更好的图像理解。考虑到用于假新闻检测的视觉内容建模的方法很少，我们使用ConvAE作为额外的比较方法来显示所提出模型的全部优势。为了避免任何偏差，我们将编码器设计为与像素域子网相同的结构，没有分支。在对ConvAE进行预训练后，使用编码器提取特征，并使用LR进行分类。

4.3 实验设置

在频域子网络中，两个完全连接层分别包含16和64个神经元，在最后一个全连接层之后添加了一个dropout层，其速率为0.4，以避免过拟合。

在像素域子网中，GRU和完全连接层的隐藏单元数分别为32和64个，每个完全连接层后面都有一个dropout层，其速率为0.5。分支数也是一个超参数，经过大量的实验，我们发现"4"的表现最好。在联合训练过程中，对频率域和像素域的子网络进行预训练和进一步微调。在对像素域子网络进行预训练时，采用数据增强策略提高其泛化性能。在整个网络中，batch大小设置为64。该模型训练了300个epoch，并提前停止以防止过拟合。使用ReLU作为非线性激活函数，并使用Adam算法对损失函数进行优化。

4.4 实验结果

4.4.1 结果对比

MVNN的表现明显优于其他基线，验证了MVNN可以有效捕捉假新闻图像的内在特征。具体来说，MVNN达到了84.6%的准确率，比现有方法至少高出9.2%。
直观上，微调后的VGG表现优于预训练后的VGG，说明在假新闻数据集上对模型进行微调后，学习到的特征与假新闻检测的任务更加相关。
ConvAE的性能略好于预训练的VGG。这表明ConvAE具有理解图像通用语义的能力，这类似于以监督方式预训练的模型。
FF+LR的性能是这些方法中最差的，因为这些取证特征捕获的信息非常有限。

4.4.2 消融实验

通过定量定性分析进行消融实验

定量分析：

去除频域子网络：从MVNN中去除频域子网，保留注意机制用于融合像素域子网的特征。
去除像素域(pd)：去掉了像素域子网和相关的注意机制。剩下的结构是频域子网络和二值分类器。
去除注意力：即不包含注意力机制的MVNN。将频率域和像素域子网的特征连接起来进行分类。
去除像素域中的Bi-GRU：像素域子网中不带Bi-GRU的MVNN。
去除像素域子网络中的分支。将输入图像输入到像素域子网络中，并从最后一个块中得到一个输出向量，用于进一步分类。

结果如下：

结论：

多域：频率域和像素域在假新闻检测中都起着重要作用，尤其是像素域。具体来说，分别缺少频率域和像素域情况下，精度分别下降5.2% 和10.9%。这进一步表明，物理和语义的视觉信息对检测假新闻都是重要的。此外，无像素域的MVNN性能明显差于无频域。说明在假新闻检测中，像素域起主要作用，频域起辅助作用。
网络组件：除了多个域之外，其他网络组件：attention, Bi-GRU和分支像素域子网络，都是MVNN取得最佳性能的重要因素。如果我们删除其中一个或几个，性能将会有一定程度的下降。具体来说：

1. 在移除注意力的情况下，准确率比整个模型低1.9%，这意味着注意力机制可以更好地融合物理和语义视觉特征向量，而不是简单地连接，进一步证明了这些特征对任务动态贡献的假设
2. 将Bi-GRU从像素域子网络中移除时，MVNN的性能下降了1.8%
3. 删除分支时，性能下降了4.3%。

因此，引入不同层次的特征以及考虑这些特征之间的依赖关系，都有助于捕获视觉内容的语义特征。

定性分析

将频率域子网络、像素域子网络以及完整的MVNN在测试集上的视觉特征用t-SNE进行定性可视化，如图7所示。每个图像的标签是真实新闻图像或假新闻图像。

从图7中，我们可以很容易地观察到，这三种网络学习到的特征表示的可分性可以排序为:MVNN >像素域子网>频域子网。

具体来说，

在频域子网络的可视化图中，正样本和负样本的特征表示有很大的重叠。这是因为所有上传到社交媒体平台的图片都会经过压缩处理，在一定程度上覆盖了原始的压缩或篡改痕迹，减小了假新闻图像与真实新闻图像在频域上的差异。
对于像素域子网络，它可以学习到可判别的特征，但学习到的特征仍然是扭曲在一起的，特别是在图7b的中间部分。
相比之下，在MVNN的可视化图中，这些是不同标签的样本之间相对可见的边界。

综上所述，结论：

像素域比频域在区分假新闻图像和真实新闻图像方面更有效;
频率域和像素域对于假新闻图像的检测是互补的，因此融合多域信息的MVNN可以学习到更好、更鲜明的特征表示，从而获得比单域子网络更好的性能.

4.4.3 多模态假新闻检测性能实验

将之前多模态假新闻检测模型：att-RNN、EANN、MVAE中的视觉模型替换成MVNN进行实验，结果如表3

表III显示了与表i相似的趋势。从表III中，我们观察到MVNN在所有融合方法上始终优于其他基线。具体来说，MVNN的准确率超过了对比方法5.2%以上，这表明MVNN可以很容易地取代现有的方法来获得视觉内容的表示，从而在检测假新闻方面取得了显著的进步。此外，由于attRNN很难利用文本与取证特征之间的语义对齐来融合文本和视觉信息，因此FF+LR在attRNN中的性能明显不如EANN和MVAE。

5 总结与展望

本文提出了一种新的框架MVNN来建模用于假新闻检测的视觉内容，该框架利用频率域和像素域的视觉信息，在物理和语义层面有效地捕获和融合假新闻图像的特征。在微博数据集上进行的实验验证了MVNN的有效性，进一步证明了多域在假新闻检测中的重要性。

未来还有几项工作需要进一步研究。首先，MVNN是一种提取有效视觉表征来检测假新闻的通用框架，它不限于平台。由于现有Twitter多媒体数据集中的特征图像有限，本文仅在微博数据上对所提出的模型进行了评估。在未来的工作中，我们可以从Twitter平台构建更大的多媒体数据集，并探索所提出的模型在不同数据集上的泛化能力。进一步，我们可以比较微博和推特数据视觉内容的异同。第二，虽然已经有很多研究集中在融合多模态信息进行假新闻检测，但这仍然是一个具有挑战性的问题，需要进一步的研究。例如，我们可以使用图像和文本之间的语义对齐来探索不同模态的作用。最后，如何解释基于多模态信息的现有模型做出的决定是值得考虑的，因为它可以帮助我们进一步理解和防御假新闻。

weixin_41964296

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
假新闻检测论文分享（13）（MVNN）Exploiting Multi-domain Visual Information for Fake News Detection

根据现有的研究，假新闻图片(fake-news images，假新闻帖子中附带的图像)不仅包括被恶意篡改的假图像，还包括被错误地用于表示无关事件的真实图像。将假新闻图像大致分为两类:篡改图像和误导图像。篡改图像是指经过数字修改的假新闻图像，如图1a所示，即通常意义上的假图像。误导性图片是指没有经过任何处理，但内容具有误导性的虚假新闻图片，如图1b所示。这些误导性的图像通常来自艺术品或过时的图像，这些图像是在早期事件上发布的。
复制链接

扫一扫