此文章为NLP的分支方向:虚假新闻检测方面的论文阅读笔记,此系列会对2021年各大知名会议的论文进行个人解读,如有错误还请指正。
1、虚假新闻检测的相关简介
作为第一篇关于虚假新闻检测方面的论文,我先简单介绍一下相关概念。虚假新闻检测属于一个二分类任务,需要根据给定的新闻内容、相关用户的评论、转发关系、文章所引用图片等相关特征对新闻本身做出判断:该新闻是否为假新闻?
因为假新闻相较于真新闻往往有一些突出的特征,如行文方式(可从新闻内容中提取)、新闻传播方式(假新闻往往在短时间内传播较快、传播范围较广,此特征可利用图神经网路来提取)、参与用户的社会背景(如年龄、性别、教育和政治派别,社会网络结构)等。这里推荐一篇文章相对概述性的文章:https://zhuanlan.zhihu.com/p/57124028。据此可将现有的假新闻检测方法可以分为基于内容、基于社会背景和基于传播的三大类。
然这三种方法又各有优劣,所以通常在论文中会被作者混合使用并在此基础上添加创新点。如基于内容的方法依赖于语言学(词汇和句法)特征,可以捕捉欺骗线索或写作风格。主要缺点是,当其足够复杂时不会立即被视为假新闻。此外,大多数语言特征是依赖于语言的,这限制了这些方法的通用性。基于传播的特性很可能跨不同的语言、地区和地理区域进行概括,而基于内容的特性则必须为每种语言分别开发。(这里只属于个人理解范围,缺漏之处还请指正)
2、本篇论文引言
此论文收录于2021SIGIR,名为User Preference-aware Fake News Detection(用户偏好感知假新闻检测,简称为UPFD),首先解释下这里的用户偏好感知的意思:当一条假新闻证实了用户的现有信念/偏好时,用户更有可能传播这条假新闻。例如,认为选举舞弊的用户可能会以支持的立场分享类似的新闻。以此为突破点,在基于文本内容和基于传播的方法基础上,添加了用户偏好的表示便该作者所提出的模型UPFD。
3、模型介绍
整体如下:可将其大致分为三个部分,①内生偏好编码器 ②外生内容编码器 ③二者信息融合的部分,最后将得到的News Embedding(新闻嵌入)通过二分类器得到最终的判断结果。
3.1、内生偏好编码器
在此部分会得到新闻内容、相关用户的偏好表示,将这两部分进行拼接得到news Texual
Embedding(新闻文本嵌入)。
- 相关用户的偏好表示:
首先在 FakeNewsNet 数据集中找到该新闻对应的用户在twitter上的社交参与信息,根据此信息在twitter上爬取200个他们之前发过的帖子,共得到2000w的推文。对于已被注销(不可访问)的用户,使用随机抽样可访问用户的推文来代替,同时控制变量使这些抽取的用户参与的新闻与其相应的历史帖子相同。这里用了两种预训练模型:word2vec 在spaCy语料库选取68w单词的预先训练向量,合并该用户的200条帖子再对其向量进行平均以获得用户偏好表示。对于BERT模型,将对200条历史推文分别进行编码再进行平均得到偏好表示。 - 新闻内容的向量表示:
在两个模型中直接编码即可。
3.2、外生内容编码器
在此部分我们利用图神经网络得到新闻的传播路径对应的图嵌入。
我们按照时间顺序构建传播图,其中根节点v1表示新闻片段,其他节点{v2,…,vn}表示共享根新闻的用户,树形关系则表示用户之间的转发关系。还记得上一步部分对不可访问的用户推文进行了随机抽取来做代替,实际上其主要目的是为了配合融合部分,防止直接删除破坏传播图的级联关系(将该用户删掉则其子节点的用户也会被删除)
3.3、二者信息融合
此部分的目的是将3.1和3.2得到的内容进行融合,得到User Engagement Embedding(用户参与嵌入)。融合主要包含两个部分,如下:
已知在3.1得到了新闻内容、以及用户的偏好表示,在3.2我们构建出了新闻的传播图:其中根节点v1表示新闻片段,其他节点{v2,…,vn}表示共享根新闻的用户。所以在这部分将对应的新闻内容、用户的偏好表示作为节点的特征向量,使传播图融合用户及新闻的信息。经络两层图卷积层后在经过readout函数,readout函数对所有节点嵌入进行平均池操作,得到图嵌入(即User Engagement Embedding)。
其次,由于新闻内容通常包含了关于新闻可信度的更明确信号,所以我们将新闻文本嵌入和用户参与嵌入串联起来作为最终的新闻嵌入,来丰富新闻嵌入信息(实际上就是加大了文本嵌入的所占权重)
4、实验
4.1、各模型的实验结果
先上结果,其测试了两种情况:(1)只利用新闻文本嵌入 (2)新闻文本嵌入+用户参与嵌入
当只利用新闻文本嵌入时,测试了四种文本编码器。通过在两个数据集上的结果可观察到word2vec和bert的平均效果更好。实际上由于bert可以利用上下文的语义信息应该比word2vec(未利用上下文,只是简单的字典对照来获得向量表示)表现更好,而此处的结果却是word2vec表现更好,令人困惑。
利用新闻文本嵌入+用户参与嵌入时,控制得到新闻文本嵌入的编码器为bert(后面会解释为什么使用bert),对得到图嵌入的部分测试了三种模型,其介绍如上(ps. UPFD为该论文提出的模型)。建议在原论文的链接处找到提出这两个模型的原论文加深理解。对比个模型的结果见上图小字部分。
4.2、消融实验
(1)改变图神经网络的结构,并测试各种节点特征的表现情况。对比Profile和word2vec两行可得出使用用户偏好作为节点特征比使用用户资料信息表现更好,对比word2vec、bert两行可得到使用bert作为文本编码器的效果更好。
(2)改变UPFD的框架,并在两个数据集上进行测试如下:
5、结论
使用用户的历史帖子作为偏好表示,并将其作为图神经网络的节点特征可提高假新闻的检测效果。