深度学习方法在谣言检测中的研究现状

摘要

  管理社交媒体上的谣言,减少谣言对社会的危害。许多研究使用深度学习方法来检测开放网络中的谣言。为了从多个角度全面梳理谣言检测的研究现状,本文从特征选择、模型结构和研究方法三个角度分析了这一高度集中的工作。从特征选择的角度,将谣言的方法分为内容特征、社会特征和传播结构特征。然后,基于模型结构将谣言检测的深度学习模型分为CNN、RNN、GNN、Transformer,便于对比;此外,本文首次将传播树、对抗学习、跨域方法、多任务学习、无监督和半监督方法、基于知识图谱等7种谣言检测方法总结为7种。并比较不同检测谣言的方法的优点。此外,本综述列举了可用的数据集,并讨论了潜在的问题和未来的工作,以帮助研究人员推进该领域的发展。

1 介绍

  

互联网和社交媒体已成为传播实时信息的综合性和大型平台。值得强调的是,在社交媒体上传播的谣言中,谣言可以改变数十亿人的看法。根据2018年互联网趋势报告([69]),超过三分之一的社交媒体新闻事件包含虚假信息。谣言的特点是广泛而迅速地传播。最新研究表明,谣言的传播速度比非谣言快6-20倍[54]。谣言通过其情感引起更多人的关注,从而广泛传播[124]。此外,谣言的传播也显示出许多不可思议的危害。例如:2013年,美联社的Twitter帐户被黑客入侵。然后它声称白宫发生了两次爆炸,总统受伤。虽然这个谣言很快就被揭穿了,但它仍然传播到数百万用户,引起了严重的社会恐慌,并导致股市迅速崩盘[20,21]。 甚至一些关于2020年COVID-19的谣言也对生命安全构成威胁,并增加了医务人员的压力,例如建议饮用漂白剂治疗疾病的虚假陈述[108]。

因此,自2011年以来,研究人员为建立优先自动谣言检测方法做出了许多努力,以减轻谣言的压力。图1是谣言检测发展的代表性工作。其中,[10]于2011年首次在Twitter上开展了谣言检测相关工作。他们手动提取基于消息的特征和基于主题的特征,以评估平台特定的主题相关信息程度。2012年,[107]首次对中国社交媒体中的谣言检测进行了研究。同年,[34]利用通信方法,通过构建由用户、消息和事件组成的网络来解决谣言问题。2013年,[51]首次成功提取了谣言的时间特征。2015年,[104]首次在传播树中模拟了谣言的传播模式。2016年,[81]提出了第一个名为Hoaxy的谣言检测平台,并首次提到了与谣言传播的区别。但是,上面有手工制作的方法。同年,[64]首次通过深度学习了解谣言内容的特征,开启了谣言检测的新篇章。然后在 2017 年,[114] 首次将 CNN 应用于谣言检测;[42]首先结合视觉特征对谣言进行分类。他们的工作导致了更多的多模态融合谣言检测工作。2018年,[101]首次尝试事件级跨域学习,解决不同域谣言的不平衡问题。[66]首先提出了一种基于立场检测任务的多任务谣言检测方法。2019年,[68]。首先尝试使用生成对抗网络的特征来模拟谣言。2020年,[102]首次在谣言检测任务中引入强化学习方法。2021年,[122]提出了双重情感特征,领先于现有的谣言检测情感特征方法。以上方法只是谣言检测代表性工作的一部分。由于深度学习在谣言检测方面取得了令人难以置信的成就,许多研究人员从丰富的数据中提取了谣言的视觉特征([13, 42])、传播特征([65, 67])和用户社交背景特征([16])。在多功能融合的基础上,提出了更多新颖、优秀的方法,如多任务方法[56]、对抗学习[101]、半监督方法[30]、弱监督方法[37,109]等。

由于与谣言检测相关的研究众多,新研究人员很难进入该领域并掌握其目前的研究状态。因此,一些调查和评论对发现谣言进行了深入研究。例如,[126]概述了如何开发谣言检测系统,该系统由四个步骤组成:谣言检测、谣言追踪、谣言立场分类和谣言真实性分类。由于他们的工作较少关注特征提取和基于神经网络的算法,因此不可能从算法的角度总结和比较不同的方法。[8]的调查描述了许多基于手动特征的方法。然而,由于发表较早,缺乏最新的深度学习方法。[70]的调查介绍了虚假信息的来源、传播和检测的阶段性问题,但也关注机器学习方法,忽略了大多数深度学习方法。总体而言,大多数已发表的调查都集中在机器学习方法上,仅涉及少数深度学习方法,这启发了我们的工作。与上述调查相比,我们旨在全面介绍基于深度学习的谣言检测算法。基于深度学习,重点关注谣言检测中的特征工程、模型结构和算法视角三个方面。此外,我们还分析了每种算法的缺点。该分析将有助于该算法的未来发展。

 

这项工作的主要贡献如下:

  • 讨论了如何从互联网海量数据中选择和挖掘谣言的特征,以及如何在最近的谣言检测研究中利用这种特征。

  • 据我们所知,首次将基于深度学习的谣言检测模型列出来,并分类为基于CNN、RNN、GNN、Transformer的方法,并讨论如何利用流行研究中的每种基础模型和改进模型来分析优缺点。

  • 据我们所知,本文是第一篇基于谣言检测方法对热门研究进行分类,梳理和介绍最新研究思路和方法的文章。总结和描述公开可用的谣言检测数据集,包括大小、标签、每个标签的编号、数据类型和备注。

  • 我们将从特征、结构和方法三个维度总结谣言检测的最新研究和最具代表性的方法。本文的章节结构如下:第2节介绍了本文的综述方法。第3节介绍了如何利用数据特征解决谣言检测最新研究中的谣言检测问题;第4节按模型结构介绍了最新的研究模型;第五节按研究方法分类:介绍各研究内容和方法;在第 6 节中,我们介绍了谣言检测中可用的数据集。最后,在第7节中,我们提出了现有研究的潜在挑战和问题。第 8 节总结了这项工作。

 2.研究方法

2.1 审查方案的制定

为了系统地调查和梳理谣言检测的研究现状,我们进行了基于深度学习的谣言检测系统综述。综述的第一步是在多个数字图书馆和数据库中检索相关研究。然后,使用选择标准来减少所选研究的数量,以进一步提高所涉及的论文的质量,并涉及尽可能多的不同深度学习方法。随后,制定了一系列研究问题,彻底解决了谣言检测现状的研究。

2,2 信息来源

为了进行系统的文献综述,我们选择了以下数字图书馆和数据集:

  1. 1.IEEE 探索 (www.ieeexplore.ieee.org)
  2. 2.施普林格链接 (www.springerlink.com)
  3. 3.Sciencez 直通车 (www.sciencedirect.com)
  4. 4.ACM 数字图书馆 (https://dl.acm.org)
  5. 5.Google 学术搜索 (第 8)

用于查找相关研究的搜索关键字是“谣言检测”或“虚假信息”和“深度学习”或“深度神经网络”或“[深度学习方法的名称]”。检索的文献结果涉及谣言检测和深度学习。为了进一步提高相关论文的质量,我们通过遴选标准的多个因素进一步筛选了论文。

2,3 研究问题

为梳理谣言检测的综合研究现状,我们在表1中提出了5个研究问题。我们在最近的研究工作中梳理和分析了这五个研究问题,并通过本文后续章节依次回答了这五个问题。

2,4 纳入排除标准

遴选标准如下:

  1. 1.本文对深度学习的谣言检测方法主要涵盖了2017-2021年的研究工作。在深度学习在多个领域取得飞速发展后,深度学习的迭代更新速度也大幅提升。为了让研究人员能够更快地掌握该领域的研究现状,我们专注于深度学习方法的研究,开展了近五年的工作。
  2. 2.为进一步提高本文涉及文章的质量,本文仅筛选高质量的会议或期刊(如中国计算机联合会推荐的会议、期刊),或引用率高的研究,或在谣言检测领域有突出贡献的研究课题组。
  3. 3.本文仅涵盖用英语撰写的研究论文。

在筛选方面,我们剔除与索引文献主题无关的研究,最终通过筛选标准和图筛选出98件作品。2是我们选择的出版物的分布。

3 特征提取

  

在大多数情况下,谣言检测会被视为二元分类问题,少数研究会将其视为多分类问题。大多数文献都遵循机器学习中监督分类的一般学习规则:首先,从两类样本中提取代表性样本的特征;其次,将提取的样本训练到合适的模型;最后,测试或测试具有未知标签的数据集。这是为了评估其标签。在最新的文献中,大多数研究都集中在如何提取特征以及在哪里提取特征。获得特征后如何处理特征也是研究的关键问题。针对RQ1,本章回顾了谣言检测中使用的内容特征、社交特征和传播结构特征,并介绍了特征提取的方法和如何使用特征。

在社交媒体中,一般新闻或博客内容包含丰富的多模式资源,如图片、视频、文本等,以及一些链接、评论、点赞和其他与沟通过程相关的信息。如图所示。3、此外,在最新的文献中发现,谣言和真实信息在传播结构上存在很大差异。因此,从传播结构中提取特征需要做很多工作。

3,1 内容特点

  

3.1.1 文本功能

与真实信息相比,谣言被用来混淆和误导公众。文字使人更加情绪化,可以吸引更多人的注意力。传统文本特征主要分为词汇特征、句法特征和主题特征三个方面。词汇特征是指从单个单词或单个单词级别中提取的语言特征。在具有手动特征的谣言的早期检测中,[10]根据消息中包含的单词计算“字数”、“字数”、“不同字数”和其他指标。句法特征是指从句子层面抽泣的一类特征,如词性标记、词频等。主题功能是指从整个消息集合中提取的文本功能,目的是理解消息及其隐式语义。

与过去人工从文本中提取特征不同,大多数最新研究([27, 28, 64, 68, 73, 97, 100, 111, 114])不再只使用文本特征,而是融合多种文本特征解决了谣言检测的问题。例如:[64]引入了循环神经网络,从相关文章的文本内容中学习隐藏的表征,开创了利用深度学习自动提取谣言文本特征的先例。后来,[114]使用卷积神经网络从文本内容中获取关键特征和隐藏的语义特征。然而,这些研究仅将全文作为输入,并失去了文章的原始章节结构。因此,[111]采用“词-句-冠”的层次结构来理解文本,并提取词级和句子层次结构作为理解文本的特征。[73] 学习了陈述文本和新闻文章作为文本特征的词级和句级表示。然而,上述研究并未考虑文章与术语之间的联系,[37, 101]认为不同领域的术语会影响谣言检测的效果,因此他们使用术语来区分假新闻,捕捉文章与术语之间的潜在关系。

研究表明,大多数假新闻和谣言都带有较多的情感信息,谣言的话题一般都包含吸引眼球的词语,用来带动读者的情绪,吸引读者阅读以促进传播。因此,最新研究将文章中的情感信息作为判断谣言的特征之一。[28]人工提取新闻中具有情感、道德、夸张等情感特征的词语,结合主题特征,得到情感和话题中的假新闻和真实信息。[122]在实验中使用新闻内容的情感信息,从新闻评论中提取情感信息,并使用双重情感特征来检测假新闻。[27]使用LDA(潜在狄利克雷分配)提取主题特征,并结合XLNet[112]提取的文本特征作为关键特征。

  

3.1.2 视觉特征

即使使用文本特征的方法在谣言检测中取得了良好的效果,但一般来说,谣言具有多模态信息,如图像、视频等。许多研究将视觉特征与谣言检测的特征相结合。在手工特征时期,视觉特征可分为视觉统计特征和视觉内容特征。其中,视觉统计特征是谣言图像的统计,如图像的数量或虚假图像的传播时间等。视觉内容特征是指视觉图像中的内容,如视觉图像的清晰度和多样性。[33]的早期研究是首次尝试手动提取虚假图像在Twitter上的传播时间等信息,并提出了识别Twitter上虚假图像的分类模型。在最新的文献中,许多研究证明了视觉信息的重要性([9,11])。[11]指出,图像比文字更有影响力,经常出现在谣言中。

近年来,大多数研究直接从视觉信息(如图像和视频)中提取图像的高维表示,使用深度学习预训练模型进行计算。如研究([46, 101, 111, 118])通过预训练卷积神经网络(CNN)提取假新闻、谣言和推文图像信息,挖掘深层次的视觉特征,并提取视觉信息与文本和其他模态特征相结合的高维表示: [120] 利用残差网络学习假新闻中的视觉特征,并首次提出视觉分离表示学习, 可以去除视觉特征特定区域的特征,使模型学习跨域特征,实现跨域事件假新闻检测。

此外,还有使用图像嵌入方法将图像转换为矩阵的研究。[125] 通过image2sentence([45])将视觉信息嵌入矩阵中,然后使用TextCNN(Text Convolutional Neural Network,[17])提取视觉特征。与VGG(Visual Geometry Group, [87])等卷积神经网络的预训练模型相比,可以计算不同模态数据之间的相似性,增加感受野。

也有研究使用深度学习方法来提取图像中包含的内容信息。例如,[11]利用[95]的研究成果提取了图片中的图像情感信息。

3,2 社交功能

在社交媒体中,谣言传播过程中会发生一系列社交互动。在正常情况下,社交媒体中的互动分为三类:关注、链接和转发评论。互动过程中会产生社交背景信息,研究发现,参与谣言互动的用户群体中具有特殊特征的用户,如“营销账号”等低信用用户,会转发和评论足够抢眼的谣言。增加他们在公众面前的曝光率。本调查将社会背景信息分为用户特征和传播特征。

用户功能来源于用户的社交网络。谣言是由少数用户创造的,由于利润因素,由许多用户传播。对用户特征的分析可以为谣言检测提供关键线索。用户功能包括单个功能和组功能。其中,单个特征是从单个用户中提取的,例如:“注册时间”、“年龄”、“身份认证”等。在前期研究中,从报告者的角度对用户的可靠性进行评价,以“用户可信度”和“用户位置”等信息作为用户特征。用户组的特征是从用户组中提取的特征,如“验证用户比例”等。

[[31]通过选择关键用户评论的社会关注点来模拟用户参与,并设置了22个社会特征,包括“拥有头像的用户比例”、“通过验证验证的用户比例”和“平均粉丝数量”。其中,有八种用户特征。[43]提取用户信用特征来表示用户的社会反应。[56]将用户的信用信息与用户对声明的评论信息相结合,解决了谣言检测的任务。[61]在转发的用户序列中提取用户个人信息作为用户特征。

3.2.2 传播功能

在传播的过程中,谣言会被大多数人转发、评论、点赞。传播功能包括从通信过程中出现的一些信息中提取的特征,如:“用户评论”、“转发次数”、“点赞次数”、“点击次数”等。

一些研究从用户评论中提取特征,以确定用户对谣言的态度。例如,[43]建议从社交媒体帖子中挖掘用户相互矛盾的观点,并估计他们的可信度值以检测假新闻。还有很多工作([56, 91, 116])根据用户对帖子和声明的回复提取位置信息。这些作品大多将用户对语句的回复作为位置检测任务的传播信息,作为完成辅助谣言检测任务的关键。

在一些研究中,在传播过程中收集的用户评论被提取并与文本特征相结合以解决谣言。[116] 根据社交网络上的帖子,使用评论和相关用户构建异构图。[26] 使用社交情境内容(如评论回复、转发回复)和社交情境元数据(如转发次数、点赞次数和收藏夹次数)进行建模。在[19]的研究中,他们从用户对谣言的评论中提取语义信息,找到一致的评论,并捕捉评论和谣言之间的隐性关系,以进一步增强模型的语义推理能力。然而,上述研究只考虑了用户与谣言之间的联系,而忽略了用户之间的关系。因此,[47]将评论的对话线程成对关联,以提取用户交互之间隐藏的依赖关系。用户间互注方法模拟传播路径中用户之间的潜在影响关系,稳定捕捉谣言和非谣言传播的相关模式和内涵。([72])

3,3 传播结构特征

传播结构特征记录并再现了谣言的传播过程,并以用户的转发为节点构建转发图。研究指出,谣言和非谣言在传播结构上存在显著差异([40])。

4显示了非谣言和谣言的传播结构对比。通信结构特征包括文章之间的关系或相似性、用户之间的关系、通信路径的特征等。通过传播路径和传播图谱提取判断谣言的关键传播特征。最早使用传播结构特征应用于谣言检测的方法([34])形成了一个由用户、消息和事件组成的网络,并单方面假设可信用户不会为谣言事件提供可信度,并且指向可信消息的链接比谣言更好。信息的权重更为重要。但是,一些受信任的用户可能会被伪装的谣言所迷惑,从而导致结果不尽如人意。

  一些研究建议使用图核来捕获通信特征。例如,[104]提出了一种混合SVM(支持向量机)分类器,结合RBF(径向基函数),基于随机游走图核来捕获传播的特征。一些研究将谣言的传播路径建模为传播树。例如,[65]在Twitter上的谣言检测中首次提出了传播树核的概念,从传播模式开始,使用核心学习。该树对Twitter进行建模,将非谣言和谣言的核学习树进行比较,以分析它是否是谣言。

此外,一些研究将谣言的传播视为具有时间序列特征的序列。在[105]的研究中,嵌入了媒体用户和社交网络结构,然后使用了LSTM(Long Short Time Memory)。然而,为了表示和分类信息的传播路径,该研究没有考虑扩散结构路径的时间序列变化。在最新的研究中,[52]提出参与扩散结构路径和响应时间的变化,以整合传播结构的特征。上述研究仍然侧重于通过传播序列提取传播结构的特征,但传播序列可能会丢失关键结构信息([94])。因此,[94]使用Node2Vec[29]方法,将传播图中的节点作为矩阵嵌入为通信信息,并使用卷积层提取传播特征。但是,Node2Vec 没有考虑图中的权重,在社交媒体网络中,具有不同声誉的帐户具有不同的传播路径权重。因此,更多的工作开始加入图神经网络(GNN)方法,从邻接矩阵中提取传播结构特征。

在最新的研究中,许多工作已经证明图神经网络能够很好地应对谣言传播结构的特点([4, 5, 22, 106])。例如:[4]使用图神经网络来捕捉传播的假新闻之间的相似性。同年,[22]利用图卷积网络(GCN)在传播模型不知情的情况下定位多个谣言源,并利用节点的多级邻域信息建立节点表示,提高源预测的准确性。[5]使用自下而上和自上而下的GCN分别提取谣言的传播和传播模式。

4 模型结构

  

第二章根据特征维度介绍了目前谣言检测中使用的特征和提取方法。为了回答RQ2,我们将介绍结构维度上的谣言检测方法。

4,1 基于CNN的谣言检测

卷积神经网络(CNN)是一种包含卷积计算并具有深层结构的前馈神经网络。它是深度学习的代表性算法之一。它及其改进的模型([14])已被证明在计算机视觉([1])、自然语言处理([78])和其他领域表现良好。表2显示了最新研究中使用CNN进行谣言检测任务的一些代表性示例,并详细介绍了最新方法。

  

近年来,大多数研究([18,60,111,114])使用卷积神经网络来提取文本内容和视觉信息的隐藏特征。例如:[114]首先使用卷积神经网络进行谣言检测任务,并使用卷积神经网络从相关帖子的文本内容中提取关键特征进行谣言检测。[18]提出了一种注意力残差网络,该网络可以通过学习谣言中的文本内容信息来获取局部和全球内容特征中的重要信息。用它来了解谣言的分类。此外,一些研究([101])使用CNN提取假新闻的视觉特征与文本特征相结合。

在最新的研究中,CNN已被用于提取嵌入矩阵的特征。例如,[125]使用假新闻文本和视觉内容进行嵌入,然后使用卷积神经网络将其提取为特征图,以计算跨模态相似度,以判断文本与图像描述之间的不一致。类似地,[94]在所提出的Rumor2vec框架中使用卷积层进行文本嵌入和节点嵌入后的特征提取。他们将这两个特征结合起来,使框架学习文本和传播特征的联合表示,以检测谣言。

许多研究证明了卷积神经网络在提取谣言特征方面的有效性,可以很好地获得局部关键特征。然而,在卷积中,输入向量的时序信息被忽略和中断。但是,无论是谣言的文本数据还是谣言的传播顺序,时间信息都可以在谣言检测中起到至关重要的作用。

  

4,2 基于RNN的谣言检测

以数据序列为输入的递归神经网络 (RNN) 在序列的演化方向上是递归的,并且所有节点都连接在链中。它与卷积神经网络之间最显着的区别是它在递归过程中保留了最后的状态并保留了时序信息。因此,大多数现有研究都热衷于使用递归神经网络进行自然语言处理([59])。[64] 首先引用 RNN 进行谣言检测任务,基于时间序列自动学习 Twitter 内容,使用 TF-IDF 对单词进行建模,然后使用 RNN 学习谣言的潜在内容。从那时起,递归神经网络及其变体在谣言检测中的应用越来越多,其中许多是最新的研究成果。

大多数研究([2, 28, 42, 46, 90])使用RNN来学习文本特征、图像特征和多模态融合特征。例如:[46]使用多个堆叠的双向LSTM来学习文本特征,并使用LSTM来融合文本和社会背景特征。[82] 使用 RNN 获得新闻内容的词级表示、新闻内容的句子级表示和用户评论表示,以描述从新闻语言特征到潜在特征空间的建模。[90]提出了一种基于衰减因子的具有多个损失水平的BiLSTM,以应对Twitter上的谣言检测。这两个方向可以从有限数量的文本中提取深层上下文信息。

此外,也有研究利用RNN的特性来保留时间,以捕捉传播中谣言的时间特征。[67]将谣言的传播结构建模为树状结构,并使用GRU(Gate Recurrent Unit)来计算树序列的每个分支。[49] 提出了一种基于卷积单元的 LSTM 树来预测社交媒体对话中立场和谣言的真实性,使用源博客文章作为根节点,将响应作为子节点。在每个节点中,都使用 LSTM。了解证据或评论的位置,进行位置检测。此外,[105]使用LSTM对消息的传播路径进行表示和分类,用于解决恶意传播者将假新闻伪装成真实新闻的问题。在研究中,[67]将研究中的新闻传播树结构转换为时间。同时,LSTM 可用于使用序列中相隔较远的项目之间的依赖关系。

一些研究([56,119])使用LSTM作为多任务学习的共享单元。 他们使用 LSTM 共享由多个元任务计算的隐藏向量,以帮助检测谣言。例如,[56] 和 [119] 使用 LSTM 将位置检测和谣言检测融合为两个元任务。

虽然RNN可以提取时序信息,但RNN的输入一般都是序列,导致传播的结构信息被破坏,提取传播的结构特征效果不好。基于RNN的谣言检测模型详见表3

  

4,3 基于GNN的谣言检测方法

近年来,图神经网络受到了很多关注。社交网络是一种常见的图形数据类型,表示各种个人或组织之间的社会关系。同时,图神经网络使用非欧几里得图作为输入,因此与CNN和RNN相比,它可以保持谣言传播的结构。最新研究表明,谣言和真实信息的传播结构是不同的([40])。

在最新的工作中,GNN主要用于提取传播的结构特征或用户交互的结构特征。[74]利用堆叠图卷积神经网络层,从用户、用户评论、新闻传播等各种数据组成的异构图中提取传播的结构特征,自动检测谣言。[5]在他们的最新工作中提出使用双向图卷积网络,使用自上而下和自下而上的传播方向来模拟谣言的传播和传播。此外,[4]还利用图神经网络提出了一种半监督假新闻检测方法,以解决有限数量标记文章中的训练问题。

[58]提出了一种基于图自编码器的谣言检测方法,该方法使用编码器,利用高效的图卷积网络将初始文本和传播图视为输入,并通过传播更新表示向量,以学习文本和信息的传播。

[[61]提出了一种基于图结构对抗学习的社交媒体谣言检测方法,用于处理社交网络中的谣言,以各种方式伪装,以避免谣言检测器。本研究建立了一个异构信息网络,利用图对抗学习框架模拟用户、帖子和评论之间的丰富信息。编码器试图动态地向图结构添加有意的干扰,以欺骗包含伪装异构图的检测器。输入图卷积神经网络,得到每篇博文的扰动结构表示。探测器将学习更多独特的结构特征来抵抗这种扰动,从而增强探测器揭穿谣言的伪装方式,并学习多样化图案的特征。

[[116]主要侧重于通过学习转发序列来整合复杂的语义信息,以及如何对全球所有微博和参与者的异构图结构进行建模以进行谣言检测。研究使用图注意力网络来捕获由社交网络上的帖子、评论和相关用户构建的异构图中的全局语义信息。该研究利用图卷积神经网络生成每个节点的潜在表示,利用注意力机制获取每个节点的权重并进行迭代,最终捕获全局表示。

4是最新的基于GNN的谣言检测工作的详细信息。从这些研究中可以发现,基于GNN的多模态谣言检测数据没有得到很好的利用。这或许也是未来工作的研究方向之一。

 

4,4 基于变压器的谣言检测

由于 CNN 易于并行化,因此不适合捕获字段序列中的依赖关系。RNN可以捕获长距离序列的依赖性。然而,实现并行处理序列具有挑战性。为了整合CNN和RNN的优点,[96]结合了注意力机制来设计Transformer。该模型使用注意力机制实现序列依赖关系的并行捕获,并可以同时处理序列每个位置的标记。近年来,Transformer 已被证明在机器翻译等自然语言处理任务中表现良好 ([24])。因此,有研究将Transformer结构迁移到谣言检测工作中。

由于Transformer可以捕获长距离场序列的依赖性,[47]使用Transformer中的多注意力机制来模拟推文之间的远距离交互。树状结构信息在研究中受到干扰,从不同对话线程之间的用户评论中获得依赖性。利用Transformer的多注意力机制,获取每篇原创博文的特征并转发评论,计算它们之间的相关性并赋予相关性权重,以便用户的评论特征可以作为更准确地判断谣言的依据。

[115]使用建立特定于位置检测的变压器和跨任务变压器。他们利用多头注意力机制引导模型更加关注仓位谣言的特定特征,获得仓位与谣言的依赖性,并分别针对谣言检测,使用预测的仓位标签作为判断依据。

Transformer 基于编码器-解码器架构。Transformer 的编码器可以将词嵌入向量编码为包含文本特征的高维表示。因此,一些研究([23,48])使用Transformer的编码器来提取词向量中的特征。 例如,[23] 和 [48] 通过 Transformer 编码器对所有新闻进行编码,以生成新闻的表示并提取文本特征以供后续计算。

[62] 提出了一种基于 Transformer 树的方法,以利用对话中的用户交互。该研究将每个语句的传播建模为树结构。在这项工作中,Transformer 被建立为自下而上的 Transformer、自上而下的 Transformer 和混合 Transformer 模型。前者将每个借书点的回应推文成对比较,以捕捉对每个树节点的一致态度。后者描述了信息如何从源博客文章流向当前节点。最后,使用混合变压器将位置特征和结构特征融合在一起,进行谣言检测。

5是基于Transformer谣言检测的最新工作的详细信息。现有的基于Transformer的谣言检测工作没有很好地利用结构信息的传播。

 

4,5 基于其他结构的谣言检测

还有很多其他的深度学习结构[12,89]。 除上述方法外,还研究了通过其他模型结构构建其算法[86,88],并获得了良好的实验结果。例如,在[88]的工作中,XLNet将谣言的上下文内容映射到高维,以学习谣言的内容特征,并结合LDA(潜在狄利克雷分配)的谣言主题分布来解决COVID-19的谣言检测问题。由于这种方法过于注重内容本身,无法保证新冠时代新谣言的爆发。然而,为了解决不同域之间谣言特征沟通困难的问题,[86]通过全连接网络将谣言文本内容中的域特有特征和非域特有特征分开。对范围域的未标记数据集进行弱监督分类。然而,他们忽略了全连接网络的全收敛速度和高计算复杂性。

5 谣言检测方法

为了回答RQ3,在本章中,我们根据最新的工作对谣言检测方法进行了分类,并介绍了最新研究中用于检测谣言的各种新方法。经过实验,这些方法比传统的手动特征方法更好、更高效、更自动化。比例更高。本文的结构如图所示。5. 表 6 中关于研究中使用的深度学习架构、工具/库和性能矩阵的总结。

5,1 传播树方法

由于社交媒体上的推文会导致很多评论,用户可以对评论信息进行进一步评论,从而形成各种分支。通过这种方式,[104]以树的形式模拟了谣言的传播,如图1所示。6 [65] 通过捕获传播树的子结构来评估传播树之间的相似性来识别谣言。然而,本研究仅比较了繁殖树之间的结构相似性。之后,[67]改进了[65],建立了基于树的递归神经网络模型,以根植于源柱的传播树为输入,传递自下而上和自上而下的树结构递归神经网络(图1)。图6以自上而下的RvNN为例)联合捕获线性序列特征。与[65]相比,该方法不需要比较传播树的结构。

[52]提到了非线性结构学习和线性序列学习的结合,以学习传播树中的传播特性。本研究利用非线性结构学习沿传播树扩散路径学习扩散传播特征,利用线性序列学习聚合上下文节点的特征,并保留时间特征来表示顺序传播。利用图卷积神经网络提取非线性传播结构特征,利用LSTM作为保留时序的线性特征学习。最后,结合两个特征对谣言进行分类并探讨其相关性。

然而,与上述方法不同的是,[47]扁平化了传播树的结构,允许所有可能的推文成对交互,并使用自注意力机制从大量推文中获取两条显著相关的推文。因为他们认为,尽管树模型可以对对话线程中存在的结构信息进行建模,并且信息在树模型中从父级传递到子级,但每个用户通常都可以观察到对话框不同分支中的所有回复。揭穿假新闻的内容可能是其他树枝中使用的推文。然而,尽管他们的方法可以链接不同传播树的分支信息,但它破坏了传播树的结构,不能使用结构特征。

尽管它们([65],[67],[52],[47])使用结构和内容信息,但并非每个传播路径都是必不可少的。有些用户容易受到谣言的影响,他们的评论可能会影响对谣言的判断。因此,他们缺乏有关用户的信息。使用属性将传播路径的权重分配给不同的用户。此外,在使用传播路径方面缺乏对公众舆论变化趋势的研究。因为很多评论认为谣言会影响后续评论用户,会导致用户在传播路径上的位置发生变化,这也是舆论的趋势。

5,2 对抗学习与自动编码结构方法

7显示了Adversarial Learning的谣言检测框架和Automatic Coding Structure的谣言检测框架。其中,对抗性学习一般使用生成器从谣言和真实信息中生成真实信息和谣言,以训练鉴别器判断谣言各个方向的特征。在最后的训练之后,使用鉴别器来区分谣言和真实信息。自编码器的谣言检测方法通常使用编码器将谣言数据集编码成特征向量,并尝试通过与前一个编码器相反的解码器结构将特征向量恢复到原始数据,并通过将生成的数据与原始数据进行比较,将生成的数据反馈给编码器。最后,通过全连接层和激活函数,将训练有素的编码器生成的特征向量分类为谣言。

[[68]指出,造谣者扩大了谣言的传播,这给这种数据驱动的方法带来了更大的挑战。因此,利用生成对抗网络的特性,利用生成器模拟谣言和宣传,输出更具挑战性的样本,从而促进鉴别器加强对此类困难样本的特征学习,以捕捉更具判别性的模式。该研究使用GRU作为生成器来表示谣言。在模型中,鼓励生成器生成类似运动的实例来欺骗判别器,而鉴别器则专注于学习更多的判别特征。鉴别器利用生成器组合的数据特征,特别是从低频模式中学习到的非平凡模式信息,可以掌握更多的判别特征。后来,[101]提出了一种跨域谣言检测框架EANN(Event Adversarial Neural Networks),其中使用多模态特征提取器作为生成器来生成谣言特征向量,以欺骗框架中的事件判别器。期望放弃特定领域中事件的特征。另一方面,事件判别器尝试查找与特征表示中包含的特定事件相关的信息以识别事件。

[46] 从 EANN 获得灵感,构建了一个带有变分自动编码器的端到端网络,称为多模态变分自动编码器 (MVAE),使用双模态自动编码器和分类器来完成谣言检测任务。它主要包括编码器、解码器和检测器三部分。编码器和解码器使用对抗性学习的思想。编码器从文本和图像中学习特征,然后将它们编码为向量。解码器将编码器的输出向量作为输入,并将其解码为文本和图像特征。并通过解码特征和编码器的输入特征来计算损耗来训练编码器和解码器,最终通过检测器完成谣言检测判断。[19]从MVAE中汲取灵感,创建了一个基于文本的多任务辅助变分自动编码器。在这项工作中,提出了一种基于LSTM的变量自编码器模型,用于传递文本 带有LSTM单元的RNN编码器进行编码,然后使用相同参数的RNN网络进行解码。

目前用于谣言检测的自编码方法或对抗性学习方法仅依赖于还原图像和文本特征,而缺乏结构化数据集的生成,例如传播树和传播图。虽然[110]已经将图结构对抗学习用于传播图的学习任务,但他们只考虑了异常传播点的检测来帮助谣言检测任务。

5,3 跨域方法

8显示了跨域方法的谣言检测框架。谣言检测方法基于特定事件或特定学习领域,导致无法识别现实世界新闻流中的假新闻。例如,政治、娱乐、医疗等领域的特定名词会导致训练结果在其他领域表现不佳。然而,研究希望谣言检测方法可以真正应用于现实世界。[35]在他们的研究中还表明,大多数假新闻检测技术并不擅长从稀有领域识别假新闻并在训练期间记录其特征。因此,有许多研究旨在解决如何在新闻和谣言记录中保留特定领域和跨领域知识,以检测跨领域新闻数据集中的假新闻。

Wang等[101]指出,大多数早期模型对突发事件的监测性能较差,无法捕捉到特定事件中未共享的不同事件的特征。为了解决这个问题,我们提出从假新闻的多模态数据中提取跨域特征。使用上述对抗性学习方法删除多模态中的特定事件特征,并保持事件的特征表示不变。提高跨域谣言检测的有效性。

Silva等[86]提出了一个框架,可以联合保存特定领域的新闻特征,并跨领域地检测来自不同领域的虚假新闻。该框架集成了一个无监督域嵌入学习模块和一个受监管且独立于域的新闻分类模块。无监督域嵌入学习模块使用多模态任务将新闻表达为低维表示,并通过学习为未标记的新闻赋予标签。分类模块在识别假新闻的同时学习新闻中的特定领域和跨领域知识。该研究将新闻的表现形式映射到两个部分,分别用于学习特定领域知识和跨领域知识。

2021年,[120]受[101]的启发,对多模态数据进行跨域事件假新闻检测工作,并将[101]研究中的多模态分离表征学习引入社交媒体谣言检测,以探索不同模态跨领域的共性和特征。该文提出一种多模态无监督域自适应方法,该方法可以推导事件不变特征,有利于检测社交媒体事件的传闻。在研究中,分别在文本和图像上训练谣言风格特征分类器和内容风格分类器,从视觉信息和内容信息中提取谣言风格和内容特征。基于对抗性学习的无监督域适应模块学习多媒体帖子中可转移谣言风格的特征,并将从历史事件中获得的知识转移到新事件中。

与上述工作不同的是,[118]从外部提取实体知识并将其记录在共享存储空间中。当给出一个新出现的事件的高级表示时,事件记忆网络将从外部知识库中检索它,并输出同一领域事件中存在的实体的特征或具有相似实体的谣言的特征。

上述工作是从去除特定领域特征或提取外部知识以保留谣言的一般领域特征作为跨领域谣言检测方法。虽然这些方法解决了一些记忆域中域名名词的干扰问题,但在研究过程中,由于许多用户对特定领域的了解有限,忽略了不同领域中谣言传播的不同方式,谣言的传播速度加快,质疑谣言的用户更是少之又少。

5,4 多任务学习

多任务学习是一种与单任务学习相反的机器学习方法。在传统的机器学习中,标准的算法理论是当系统的输出是实数时,学习一个任务。多任务学习是一种联合学习,其中多个元任务并行学习,使学习结果相互影响。这意味着多任务学习是同时解决多个元问题。在最新的研究中,研究正在使用多任务学习方法来解决谣言检测问题([19,48,56,66,119])。

在最新的工作中,大量文献利用用户评论和证据来提取用户对谣言的立场。这种类型的工作称为位置检测。联合立场检测任务和谣言分类任务,然后分享从这两个任务中提取的特征进行谣言检测,如图1所示。9 许多实验证明,位置检测对谣言检测具有巨大的积极影响。[66]和[48]在他们的工作中使用GRU共同优化了立场检测和谣言分类任务,并且都取得了显着的改进。然而,他们为每个用户的评论分配了相同的权重,忽略了一些不受信任的用户的评论特征对谣言检测几乎没有甚至负面影响。由于并非所有用户都具有很高的信用度,因此[119]在他们的工作中添加了用户信任功能和文本功能嵌入。尽管如此,它仍然忽略了注释信息的结构,[49]提出了一种具有卷积单元的树状结构LSTM多任务模型,并利用树状结构向上传播有效位置信号,对根节点的谣言进行分类。然而,上述研究并未将位置检测计算的结果与谣言检测的特定输出层相关联,因此[115]在联合位置检测和谣言分类的多任务框架中增加了一个Transformer层,以捕获整个对话线程中的一篇博客文章。通过组合两个变压器组件,解决了以往工作中位置特定层和谣言特定层之间未显式建模的问题。

对于使用立场检测帮助谣言检测的多任务学习方法,虽然用户对谣言的反馈可以用来对谣言做出初步判断,但我们认为这种方法否定了舆情趋势的作用。谣言的传播危害是舆论趋势的压力。一些不坚定的用户在观察公众的立场时会动摇立场。立场检测会对这种现象产生适得其反的效果,这将误导谣言检测的任务。尽管一些研究使用了用户可信度信息,但仍然没有对舆论趋势的变化做出任何对策。因此,这也是对使用姿态检测的多任务学习方法的挑战。

[19]的框架与图19所示的框架不同。9.原因是他们受到[126]的启发,将谣言分为四个部分:谣言检测、谣言跟踪、位置分类和准确性分类。因此,[19]将这四个部分作为四个元任务,建立了谣言检测器、谣言追踪器、立场分类器和真实性分类器,分别针对上述四个任务,并结合四个分类器的结果来辅助谣言检测任务。

5,5 知识图谱法

图 10 显示了用于谣言检测的知识图谱 (KG) 方法的架构。知识图谱是一个语义网络,揭示了实体之间的关系。有数以百万计的项目描述真实世界的实体,例如人物、地点和组织。在知识图谱中,实体表示为节点,这些节点之间的关系被描述为边。知识图谱通过实体链接得到广泛应用,如电影推荐([117])、机器阅读([113])、文本分类([99])等。在最新的工作中,一些文档提取了谣言中的实体名词,然后通过知识图谱获取谣言以外的知识,以辅助谣言检测任务。

[[77]首先提出了一种基于内容的假新闻检测方法,使用知识图谱,创建了三种类型的知识图谱:基于假新闻数据库、开放知识图谱和可靠的新闻机构。实际的新闻库。并利用从假新闻中提取的三元组信息,检索创建的知识图谱,在向量空间中表示三元组,通过向量判断新闻文章的真实性。但是,这种方法只能记录已经发生的新闻事件,其检测新谣言的能力微乎其微。

[[23]整合了知识图谱中的外部知识语言新闻检测,识别了新闻内容中的实体,并与知识图谱中的实体进行了匹配。知识图谱中的上下文被用作补充信息的外部知识,每个实体都被赋予权重以表达其重要性。但是,它们将上下文嵌入到知识图谱中。由于新爆发的知识图谱中可能缺少新知识,因此对谣言检测任务的影响不稳定。

[[38]提出了一种CompareNet,它利用新闻知识图谱中的知识与新闻文本的实体对齐,在知识图谱中找到相应的实体,即上下文信息。将联合知识图谱的结构信息和文本知识与原始新闻中实体的描述进行对比,计算相似特征,结合原始新闻的高维特征对新闻进行分类。与[23]相比,他们的方法比较了原文的嵌入信息和结构特征,以在实体比较中得到更好的结果。然而,它们在特征融合过程中缺乏对多个特征融合权重的考虑。

5,6 无监督和半监督学习方法

无监督学习和半监督学习是机器学习中的两种典型方法。无监督方法由于缺乏足够的先验知识,必须根据位置类别的训练样本解决模式识别中的问题。半监督学习是一种结合监督学习和无监督学习的学习方法。半监督学习使用大量未标记的数据,同时使用标记数据进行模式识别。由于谣言检测相关数据集标记较少,涉及领域范围广,对标识人员的专业要求较高,使得谣言检测数据集的标签具有挑战性。因此,有用于谣言检测的无监督学习方法和半监督学习方法的工作。

因为目前流行的数据集中标记的文章较少,收录范围也比较窄。但是,以众包方式标记新闻可能不准确。Guacho等[30]将文本映射到欧几里得空间中的潜在表示,提出了一种将K-最近邻算法与图神经网络和图注意力神经网络相结合的半监督学习方法,将文本分为谣言和非谣言。

Yang等[109]提出了一种社交媒体假新闻检测的无监督生成方法,利用用户在社交媒体上参与新闻推文的辅助信息,提取用户对新闻的看法,并以无监督的方式收集意见并生成估计结果。新闻的真实性和用户的可信度被视为潜在的随机变量,用户对社交媒体的参与程度用于确定他们对新闻真实性的看法。并使用贝叶斯网络模型来捕获新闻真实性、用户意见和用户可信度之间的条件依赖关系。

由于社交媒体中的谣言设计在许多领域,需要大量的领域专家来对谣言进行分类,因此谣言检测的数据集标记非常困难,需要大量资金。从理论上讲,无监督学习方法和半监督学习方法可以很好地解决这类问题([30],[109],[41])。然而,尽管已经有一些研究,但仍然没有突出的应用

5,7 其他方法

除了 5.1-5.6 中提到的谣言监测方法外,还有很多使用新技术进行谣言监测任务的工作。例如:迁移学习([88])、强化学习([102])等。

Singhal等[88]使用一种多模态方法,该方法使用迁移学习从新闻文章和相关图像中获取语义和上下文信息,以提高假新闻检测的准确性。该研究使用预训练的语言嵌入和图像网络模型来提取特征。这些特征向量被输入到全连接层中进行分类。

Wang等[102]提出了一种基于强化学习的弱监督框架。该框架可以使用用户报告作为弱监督来扩展用于假新闻检测的训练数据。该框架包含三个组件:注释器、假新闻检测器和增强选择器。该框架使用一组标记的假新闻样本和用户对这些新闻文章的反馈,可以根据反馈训练注释者,并根据内容自动将用户反馈的弱标签分配给未标记的新闻文章。使用强化学习技术,强化选择器从弱标记的样本中选择高质量的样本作为假新闻检测器的输入。假新闻检测器最终根据其内容为每篇输入文章分配一个标签。

Rosenfeld等[79]研究了分离扩散模式对谣言检测的影响,利用图核从Twitter级联结构中提取复杂的拓扑信息,并训练了忽略语言、用户身份和时间的预测模型,并首次证明了其删除。复杂信息的扩散模型具有较高的精度。结果表明,通过适当的收集,即使在传播的早期阶段,谣言在人群中的传播模式也可能揭示出谣言真假的有力信号,同时证明传播模式确实可以提供谣言的准确性。

马等[63]提出了一种基于分层注意力网络的谣言检测句子级嵌入方法,该方法整合了谣言中每个句子与证据之间的隐含关系,保证了证据的一致性。本著作设计的端到端分层注意力网络 端到端分层注意力网络用于句子级证据嵌入。目的是通过考虑主题的连贯性和语义推理强度来关注重要的句子/证据。该模型可以更合理地确定谣言的判决,并将证据句子嵌入到学习的陈述中。同时,在注意力的帮助下,可以突出和引用关键证据,以更好地解释判决。

6 数据

为了回答RQ4,本节详细介绍了可用于谣言检测研究的数据集类型。表7汇总并绘制了数据集的详细信息,其中仅提供了数据集原始提供者提供的相关数据集信息。如果该数字被其他工作删除和修改,则不会进行统计。

大部分工作都使用了来自Twitter、微博和最新研究中的新闻的数据集。其中一些数据集是由研究人员根据社交媒体的公共API获得的。例如,[65] 使用他们发布的 API 从 Twitter 收集数据,以建立 Twitter15 和 Twitter16 数据集,它们分别包含 1381 和 1181 个传播树。并使用四个标签来注释每棵树:非谣言、虚假谣言、真实谣言和未经证实的谣言。

此外,作业正在使用公开可用的新闻事件数据集。例如:MediaEval([6])、Buzzfeed Election([36])、PHEME([127])、LIAR([100])等。其中,PHEME使用人工标记的谣言和非谣言,包括关于九个突发新闻事件的原始博客文章和回复。Buzzfeed 选举数据集包括 2016 年美国大选期间 9 月 19 日至 9 月 27 日的完整 Facebook 新闻。LIAR 包含来自 PolitiFact 集合的假新闻,包括新闻稿、电视新闻等形式的简短声明。

然而,在最新的研究中,研究人员发现,大多数现有的数据集规模很小,或者只包含少数几个领域的假新闻。出于这个原因,许多工作提出了新的大规模、多域数据集。例如,最近的工作提出了一个大规模的多模态数据集NewsBag([44]),其中包含200,000条真实新闻和15,000条假新闻。真正的新闻来自《华尔街日报》,假新闻来自《洋葱报》。[32] 认为一些假新闻在真实新闻的多重传播过程中被恶意修改或歪曲。如果忽略这种情况,模型就会被欺骗。因此,发布了一个用于跟踪假新闻演变的新数据集,称为假新闻演变 (FNE) 数据集。该数据集由 950 个配对数据组成,每个数据集由代表进化过程三个重要阶段的文章组成,即真相、假新闻和进化假新闻。

还有一些研究侧重于权利要求提取和验证。例如,[93]公开了一个名为FEVER的数据集,该数据集由185,445个语句组成,这些语句是通过修改从维基百科中提取的句子生成的,然后在不知道这些句子的来源的情况下进行身份验证。这些陈述被评论者归类为支持、反驳和信息不足。并在数据集中提供注释者的判断依据来判断前两类信息。

7 潜在问题和今后的工作

在过去的几年里,为了使网络中包含的信息更加可靠,世界各地的研究人员做了大量工作并取得了相当大的改进。然而,一些关键领域并没有得到很好的解决。为了回答RQ5的问题,本章重点介绍了当前研究的不足之处,并给出了谣言检测面临的挑战和未来研究的潜在方向。

7,1 数据伦理问题

虽然谣言检测的研究很活跃,但已经应用于一些场景,比如微博,谣言已经得到了改进。然而,在这一领域的探索过程中,也面临着一些伦理问题。在研究过程中,大多数社会科学研究人员收集 Twitter 数据,例如文本内容、图片、视频,甚至私人信息,例如帐户所有者的性别、用户的年龄和种族。Twitter在道德方面尤其具有挑战性,因为它的数据是部分可访问的。尽管服务条款规定用户的公开帖子将提供给第三方,并且通过接受这些条款,用户将在法律上同意这一点,但调查([103])显示,只有不到三分之二的人全部或部分阅读了这些条款。这个群体中只有76%的人知道,当他们接受服务条款时,他们同意第三方访问他们的一些信息。虽然一些研究已经注意到了这个问题,但为了保密或隐私保护,他们没有公开自己的信息或隐藏用户ID等私人信息,但仍然存在隐私泄露的问题。例如,一些公共谣言数据集(如Fakeddit([75])、Twitter Dataset([101])包含与政治和社会人物相关的同情信息,但没有采取有效措施来保护隐私。此外,他们中的大多数尚未获得用户的知情同意。此外,调查数据显示,49%的政府受访者和51%的商业公司受访者对使用Twitter数据集进行研究表示担忧,受访者表示高度同意Twitter关于同意匿名的研究,并希望在使用Twitter帖子发布学术成果之前获得他们的同意。因此,数据伦理问题是未来谣言检测研究中需要关注的问题之一。

7,2 算法伦理问题

[126]指出,谣言检测算法在围绕特定事件的社交媒体数据集上表现良好。但是,由于语言使用的变化,它们的准确性将下降到它们所开发的事件之外。因此,对于研究人员应该如何开发、使用和重用算法,他们通常会在他们不知情的情况下使用敏感标签对内容和用户进行分类,这带来了伦理挑战。根据数据的规模和速度,研究者应确保算法在谣言检测方面表现良好,建立谣言分类标准,确保所使用的数据标签准确无误。此外,如果研究打算对设计算法数据集之外的数据使用谣言分类算法,研究者应负责确保分类算法的持续有效性,因为大数据的失败将导致大众质疑算法的威力和寿命([53]).因此,谣言检测算法需要公开发布并透明地复制,以便定期测试其有效性,以避免错误标记内容和用户。

7,3 法律问题

从 Twitter API 中提取的数据包含个人信息,受相关数据保护法规的约束。因此,如果无法获得用户的知情同意,研究人员应为收集个人信息建立公平和合法的依据。研究人员可以接受社交媒体网络的服务条款,服务条款为涵盖相关数据保护立法提供了充分的条件。目前,许多国家已经颁布了数据保护法,如英国数据保护法(DPA)、中华人民共和国个人信息保护法等文件([103])。因此,在未来的研究过程中,社交媒体中相关个人因素数据的收集需要在相关数据保护法条件下进行收集、使用和披露。

7,4 用于谣言检测的实时可视化和学习

虽然谣言检测的研究逐渐成熟,但目前的谣言检测任务仍基于二元分类(真/假)或三元分类(真/假/未验证)。然而,由于真实场景中谣言检测任务的难度和复杂性,二元或三元分类模型远不足以识别异常网络信息的特征。由于社交传播数据的实时性和异构性,数据可视化是说明在线社交媒体信息不同方面和分布模式的有力工具。交互式可视化系统可以根据数据的不同纬度和地图,方便人工监督和理解,解释数据基于时间的模式和行为,更清晰地总结重要特征。如今,已经有许多关于社交媒体可视化的广泛研究([76],[50],[80],[3])。除了([123])的工作外,很少有研究关注社交媒体上谣言信息可视化的互动探索。这样的可视化平台可以表明信息传播的性质,并被视为有关在线用户之间关系的信息资源。通过实时谣言可视化系统,在谣言信息或用户异常行为发生时,可以检测到谣言信息或用户异常行为。然后可以使用适当的谣言拒绝机制来限制谣言的负面影响。在线系统是一种实时保护措施,试图立即保护在线读者。

此外,结合实时谣言检测学习,采用强化学习等渐进式思想,强化谣言检测能力,实时学习新爆发的谣言内容和规则。此外,目前缺乏将研究技术部署到基于Web的实时验证应用程序中的扩展。此类应用程序应使用强化学习方法来学习紧急情况下最新爆发的谣言的特征,并提供检测谣言的能力。结合实时谣言可视化系统,互联网用户或网络专家可以领先于网络谣言的全面传播,从而减少此类信息攻击的影响。实时系统通常结合实时学习和可视化技术,可以跟上谣言的新趋势,可以应用于更多场景。因此,实时可视化系统中在线谣言检测和监控的重要组成部分是一个值得探索的领域。

7,5 用于谣言分析的数据集问题和无监督学习

虽然谣言检测领域有很多公开数据集,微博、推特等社交媒体也开放了API供科研人员获取数据。然而,标记谣言检测数据集是一件棘手的事情。谣言涉及多个领域,给谣言贴标签的工作需要不同领域的专业人员才能完成,而这些专业人员的培训具有挑战性且成本高昂。很多钱。此外,即使对于该领域的专业人士来说,将新闻标记为真假对他们来说也是一项非常具有挑战性的任务([41])。一些工作([102])建议使用众包来标记谣言检测数据集,但无法保证标记的准确性。一些著作([23]、[86]、[84]、[125])认为,来自一些事实核查平台的数据可以用作谣言检测数据集。然而,此类平台提供的数据准确性有待调查,并且大多局限于政治、医疗、社会等主要领域,缺乏专有或小领域的数据。因此,数据集标注困难,缺乏公开可用的大规模数据集也是未来需要解决的挑战之一。

无监督方法可以应用于真实世界数据集的实际分析。我们在 5.6 中提到了当前使用无监督和半监督学习方法的谣言检测研究。然而,我们认为,除了使用距离测量([30])和基于异常值分析的方法(5.6中引入的[109])之外,还可以从以下两个方向解决数据集的挑战。

  1. 1.

    语义相似性分析:用于检测几乎重复的新闻内容。由于谣言发布者缺乏相关知识和想象力,他们经常重复使用现有的谣言内容([57])。例如,谣言评论者只需要修改一些基本部分,就可以修改正确的消息作为谣言发布,从而误导用户。因此,通过语义相似性分析来检测被篡改的谣言,可以提供一种合适的方法,并可用于潜在的谣言检测。

  2. 2.

    无监督谣言嵌入:由于谣言的文本性质,语义相似性分析、情感分析等相关任务是谣言检测的重要组成部分。嵌入是自然语言处理中必不可少的一步。它是指提取原始文本数据的高维表示的过程。在谣言检测中,可以使用高维表示作为进一步分析的输入。不同的嵌入技术可以从不同角度捕捉数据的特征。选择一个好的嵌入方法,对于获取新闻的底层性质和成功检测互联网上的虚假信息起着至关重要的作用。一些流行的无监督嵌入技术包括 Word2vec([71])、FastText([7]) 和 Doc2vec([55])。

7,6 及早发现谣言

目前关于谣言检测的研究只能检测谣言,当谣言已经产生并通过互联网传播到特定规模时。然而,尽管一些事实核查平台可以警告用户信息可能包含错误信息,但他们无法在谣言在社交媒体上传播的早期阶段组织此类谣言的传播。此外,这类问题也需要未来研究人员的关注。

因此,我们认为,对谣言的早期预测作为未来的工作,对于谣言的检测具有重要意义。由于目前大部分的谣言检测工作都是试图研究大规模传播的信息的真假检测,因此尽早发现任何趋势或潜在的谣言至关重要。通过从历史数据中学习,早期发现谣言希望在谣言爆发时发现它们。然而,已经有工作([15])希望通过文章的内容或情感特征([26])在早期阶段发现社交媒体中谣言的特征。然而,不能保证它们的泛化能力能够应对新出现的谣言或新时间区域的早期谣言检测。此外,我们认为早期谣言可以通过更多的努力来检测,例如潜在的谣言主题分析、谣言发布者的使用、数据源的分析、不同谣言的特征转移等。

7,7 谣言干预与辟谣机制

虽然谣言预测可以提醒用户在假新闻存在期间任何潜在的虚假信息,但谣言在传播过程中已经引起了一定程度的恐慌。然而,就目前的研究而言,对谣言的干预和辟谣的机制的研究还不足。([25])通过构建谣言传播的网络模型,降低了谣言在社交媒体上的影响,一些工作([85])提到了一些其他抑制谣言传播的方法,例如删除一些高风险用户的帐户或使某些人更容易受到攻击。迷茫的用户提供了免疫空间。因此,与谣言干预相关的工作是减少谣言传播对用户造成的大规模恐慌和社会危害的潜在研究方向之一。

此外,对辟谣机制的研究可以了解辟谣和造谣干预的机制,进而通过广泛的关键传播节点传播准确的信息。从而进一步减少谣言的危害。[121]建立了一个传播模型,通过8种谣言的传播动态来研究消除谣言的机制。[39]建立了基于博弈论原理的谣言拒绝机制模型。因此,谣言拒绝机制也应与谣言的干预相结合,作为减少谣言危害的研究方向之一。

 结论

谣言和假新闻已成为数字通信生态系统的副产品,事实证明这是非常危险的。谣言检测工作可以对当前现场进行分析、表征、对比和综合评估,对谣言进行分类。本文试图对谣言检测的最新工作进行总结。重点关注特征提取、模型结构和方法三个方面。在特征提取中,大约80%的研究使用机器学习和深度学习来隐式和显式地提取谣言特征。在模型结构中,本文根据流行结构对最新研究进行了分类。在方法论中,根据各自的研究方向对最新工作进行分类、比较和介绍。最后,针对现有研究的不足之处,提出未来研究的潜在研究方向,供研究者参考。

在某种程度上,这项工作有助于新研究人员了解谣言检测方向的最新发展,并帮助新人更快地适应该领域并理清自己的想法。实时可视化和学习、未修复的学习和谣言的早期检测等领域是尚未解决的挑战性工作,需要进一步研究。提高谣言检测的准确性和应用研究内容还有很长的路要走。克服上述挑战将为谣言管理和网络安全提供进一步的技术支持。表8显示了本文的缩略语列表。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值