【论文解读 ICDM 2019 | MVNN】Exploiting Multi-domain Visual Information for Fake News Detection

论文题目:Exploiting Multi-domain Visual Information for Fake News Detection

论文来源:ICDM 2019

论文链接:https://arxiv.org/abs/1908.04472

关键词:假新闻检测;图像;频域;像素域;CNN;RNN;attention



1 摘要

本文主要是利用新闻的图像信息,将频域和像素域的特征进行融合,以用于假新闻检测。

假新闻帖子中的图片,不仅包含了恶意篡改的虚假图片,也包含了被错误地用来代表无关事件的真实图片。

假新闻图像和真新闻图像相比,在物理和语义层面都可能有着显著不同的特征,分别体现在频率域和像素域上。

本文提出MVNN(Multi-domain Visual Neural Network)框架,混合频域和像素域的视觉信息,以用于假新闻检测。

特别地,本文设计了一个基于CNN的网络,自动捕获假新闻图像在频域的复杂模式;并且利用了multi-branch CNN-RNN模型来从像素域不同语义级别上抽取视觉特征。然后使用注意力机制动态融合频域和像素域的特征表示。


2 引言

(1)假新闻图片的分类

假新闻图片可分为两类:

1)篡改的图像(Tampered images):被ps过的图片;

2)误导的图像(Misleading images):图文不一致,图片是真实的,但是内容会误导。这类图片通常源于艺术作品或者描述以前事件的图像。


(2)现有工作

现有的关于假新闻检测的工作大多关注于文本内容和社交上下文,很少有工作利用视觉信息来进行假新闻检测。

有一些工作通过抽取特征来评估图像的权威性,但是这些特征大多是人为设计的,以用于检测特定的修改痕迹,不能适用于误导的图像。

也有一些方法利用预训练的CNN,例如VGG19,来获得整体的视觉表示。这类方法由于缺乏任务相关的信息,难以捕获到假新闻图像的语义共性。

因此,如何有效地利用假新闻图像的内在特性以实现假新闻检测是一个挑战。


(3)假新闻图像和真新闻图像的区别

假新闻图像和真新闻图像在物理层面和语义层面可能都有着显著不同的特性:

1)在物理层面

  • 误导性图片:假新闻图像可能是低质量的,这就会明显地反应在频域(frequency domain)。例如,在社交平台上多次上传下载之后,误导性的图片通常比真实新闻的图片有更严重的重压缩伪影(re-compression artifacts),比如图 3所示的block effect。

  • 篡改的图片:有不可避免的篡改痕迹。

重压缩的图像和篡改的图像通常在频域中表现出周期性,具有捕获空间(spatial)结构特征能力的CNN可以很容易地表征出这些特征。作者设计了基于CNN的网络,自动捕获假新闻图像在频域中的特性,如图 2上部分所示。

2)在语义层面

假新闻图像在像素域(即空域)也有一些明显的特性。假新闻发布者倾向于利用图像来吸引并误导读者,以实现新闻的快速传播。因此假新闻了图像通常有视觉冲击(visual impact)和情感挑衅(emotional provocations),如图 4所示。

这些特征已经被证实与许多视觉因素有关(从低水平到高水平);因此作者建立了一个multi-branch CNN-RNN网络,抽取不同语义层次的特征(如图 2下部分所示),在像素域充分捕获假新闻图像的特征。

将频域和像素域的视觉信息融合有助于提高假新闻检测模型的性能。但并不是所有的特征都对假新闻检测任务同等重要,因此作者使用注意力机制动态地从不同域融合这些视觉特征。


(4)本文提出

本文提出MVNN框架,利用新闻的图片,通过结合频域和空域的信息学习到有效的视觉表示,以用于假新闻检测。

模型由三部分组成:1)频域子网络(frequency domain sub-network ),捕获假新闻图像物理层面的特征;2)像素域子网络(pixel domain sub-network),捕获假新闻图像语义级别的特征;3)融合子网络(fusion sub-network),动态地融合这些特征。

本文贡献如下:

  • 是第一个使用多域的视觉信息用于假新闻检测的研究工作,在物理层面和语义层面捕获到了假新闻图像的特性;

  • 提出MVNN框架,利用了端到端的神经网络同时学习频域和像素域的表示,并有效地将两者融合;

  • 进行实验验证了模型的有效性。


3 模型

3.1 模型概览

MVNN模型的目的是利用频域和像素域的视觉信息,从而评估给定的图像是假新闻图像还是真新闻图像。如图 2所示,MVNN包括3个主要模块:1)a frequency domain sub-network;2)a pixel domain sub-network;3)a fusion sub-network。

对于一个输入图像,我们首先将其输入到频域和像素域子网络中以分别得到物理层面和语义层面的特征。然后将这些特征作为融合子网络的输入,以得到该图像最终的视觉表示,用于预测其是真新闻图像还是假新闻图像。


3.2 频域子网络

使用离散余弦变换(discrete cosine transform, DCT)将输入图像从像素域转换到频域。篡改的或重压缩的图像通常在频域上有周期性的特征,可以使用CNN捕获到这些特征。因此作者设计了基于CNN的网络,以捕获到假新闻图像在频域的特征,如图 5所示。

(1)对于输入图像,首先对其使用block DCT,以得到64 个频率对应的DCT系数的64个直方图。

(2)然后在这些DCT系数直方图上进行1D Fourier transform,以增强CNN的影响。考虑到CNN需要固定大小的输入,因此对这些直方图进行采样并得到64个250维的向量,表示成 { H 0 , H 1 , H 63 } {\{H_0, H_1, H_{63}}\} {H0,H1,H63}

(3)预处理之后,每个输入向量被输入到共享的CNN网络,以得到相应的特征表示 { w 0 , w 1 , . . . , w 63 } {\{w_0, w_1, ..., w_{63}}\} {w0,w1,...,w63}


这一CNN网络由3个卷积块和一个全连接层组成,每个卷积块都由一个一维的卷积层和一个最大池化层组成。为了加速模型的收敛,作者令卷积层中的过滤器数量递增。

已有的关于图像鉴别(image forensics)的工作通常只考虑了一部分频率的系数。本文作者发现所有的频率都对假新闻检测任务有帮助,因此通过拼接将所有频率的特征向量进行融合得到特征表示 l 0 l_0 l0,并作为融合子网络的输入。

作者在实验中尝试了多种融合方法,结果显示拼接(concatenate)操作在次任务中表现最好。


3.3 像素域子网络

设计像素域子网络用于抽取输入图像在语义级别的视觉特征,如图 6所示。

靠前的卷积层倾向于捕获低层次的特征,例如颜色、线条和形状,后面的卷积层倾向于物体。在抽象的过程中,底层特征不可避免的会有损失,这进一步说明了CNN的底层和中间层可以为顶层提供补充信息。

许多工作已经证明对于某些任务(salient object detection and image emotion classification),整合不同层的特征和仅使用高层次的特征相比,有助于实现更好的性能。我们前面也阐述了假新闻图像通常带有视觉冲击和情感挑衅,这些以及被证实和从低层次到高层次的许多视觉因素有关。

因此,为了捕获假新闻图像的语义特征,作者建立了multi-brach CNN网络以捕获不同层次的特征,并且利用Bi-GRU网络建模这些特征间的序列依赖。


图 6所示,CNN网络主要由4块组成,每块由一个33卷积层和11卷积层以及一个最大池化层组成。将图片输入到CNN中,从4个branches中抽取的特征将经过一层1*1卷积和一层全连接层,以得到相应的特征向量 v t , t ∈ [ 1 , 4 ] v_t, t\in [1,4] vt,t[1,4]。这些特征表示图片的不同部分,例如line, color, texture(纹理), object。

受GoogLeNet中用到的Inception模块的启发,作者使用1*1卷积层来减小维度并增加模型的表示能力,因为它增加了非线性激活函数并促进了不同通道信息的融合。

不同层次的特征间有很强的依赖。例如,中间层次的纹理特征,是由低层次的line特征组成的,同时也组成了高层次的特征,例如object。因此,作者使用Bi-GRU来建模低层次和高层次特征间的依赖。

其中 r t , z t , h t ~ , h t r_t, z_t, \tilde{h_t}, h_t rt,zt,ht~,ht分别表示reset gate, update gate, hidden candidate, hidden state。

将每个时间步的前向和后向隐层状态拼接,组成最终的语义特征表示 L = { l t } , t ∈ [ 1 , 4 ] L={\{l_t}\}, t\in [1, 4] L={lt},t[1,4]


3.4 融合子网络

作者假定图像的物理特征和语义特征是互补的,因此提出融合子网络(fusion sub-network)来融合这些特征,即 l 0 l_0 l0 { l 1 , l 2 , l 3 , l 4 } {\{l_1, l_2, l_3, l_4}\} {l1,l2,l3,l4}。作者使用注意力机制融合这些特征,增强的图片表示计算如下,其中向量 v v v是随机初始化的,在训练过程中联合学习到。

目前,我们建模了图像在物理层面和语义层面的特征,得到了输入图像的高层次表示 u u u。然后进行预测,得到假新闻图像和真新闻图像的概率分布:

损失函数为交叉熵:


4 实验

(1)数据集

基于多媒体内容的假新闻检测数据集很少,两个广泛使用的数据集是MediaEval Verifying Multimedia Use benchmark提出的Twitter数据集,以及Jin等人构建的Weibo数据集。

C. Boididou, S. Papadopoulos, D.-T. Dang-Nguyen, G. Boato, M. Riegler, S. E. Middleton, A. Petlund, Y. Kompatsiaris et al., “Verifying multimedia use at mediaeval 2016.” in MediaEval, 2016.

Z. Jin, J. Cao, H. Guo, Y. Zhang, and J. Luo, “Multimodal fusion with recurrent neural networks for rumor detection on microblogs,” in Proceedings of the 2017 ACM on Multimedia Conference. ACM, 2017, pp. 795–816.

Twitter数据集:https://github.com/MKLab-ITI/image-verification-corpus/tree/master/mediaeval2016

Weibo数据集:未找到链接


但是Twitter数据集中有许多重复的图像,独有图片的格式小于500,数据量太少不足以支持模型的训练。因此,本文只在Weibo数据集上验证了模型的有效性。数据集包含4749个假新闻和4779个真新闻,每个新闻有且只有一个图片。


(2)实验结果


5 总结

本文提出MVNN框架建模视觉内容以用于假新闻检测,并且利用了频域和像素域的视觉信息,有效地捕获并融合了假新闻图像在物理层面和语义层面的特征。

未来工作

(1)从Twitter中获取数据,构建一个更大的多媒体数据集,研究模型在不同数据集上的泛化能力。也可以进一步比较Weibo和Twitter视觉内容的相似点和不同点;

(2)使用图像和文本之间的语义对齐来探究不同模态的作用
We can use the semantic alignment between images and text to explore the role of different modalities.

(3)基于多模态信息的模型的可解释性。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值