Machine Learning-Based Rumor Controlling

1 Introduction 

   随着世界进入Web2.0时代,Facebook、Twitter、微博等社交媒体近几十年来迅速发展,已经成为我们生活中不可分割的一部分。根据皮尤研究中心的调查,2007年,在线社交媒体成人用户占美国成年人口的比例为5%,2015年已增长至65%[57]。在世界上,数十亿人通过社交媒体联系在一起。 

   电视、广播和报纸等传统媒体上的内容由专业人士创建并经过验证,然后发布给观众或读者。在社交媒体上,每个用户都有资格发布内容,并且缺乏事实核查机制。每天,大量的消息、图像和视频未经验证就发布到社交媒体上。由于连通性,信息(包括谣言)在社交媒体上迅速传播。

   例如,2019年开始,随着新冠疫情的爆发,世界进入大流行时期。与此同时,社交媒体上出现了各种广泛传播的新冠肺炎谣言。例如,有人将 5G 网络与 COVID-19 联系起来[40]。该谣言的一个版本声称,所有有关 COVID-19 的新闻报道都是精心设计的骗局,5G 网络是导致 COVID-19 症状的真正原因。根据《纽约时报》的分析,另一个版本是,5G 网络可能会削弱免疫系统,使人们容易感染病毒[62]。在 Facebook 上,COVID-19/5G 谣言社区在短短两周内就吸引了 50 万粉丝。谣言是遍布30多个国家。 COVID-19/5G 谣言加剧了人们的恐慌。疫情期间,多个城市报告5G铁塔遭到袭击,远程办公技术人员受到骚扰。 COVID-19/5G谣言不仅造成重大经济损失,还影响公共安全。

   加大力度控制谣言[17, 18]。然而,由于社交网络数据的规模、噪音和动态性,分析它很困难[59]。机器学习是一种旨在基于大量数据进行自主学习以找出隐藏模式并做出预测的技术,可能是一种有效的解决方案。与基于规则的传统专家系统相比,机器学习显着减少了人为干预。然而,基于机器学习的解决方案仍然依赖于精心设计的功能(特征工程)。深度学习是最流行的机器学习分支,它更进一步。它可以捕获最佳特征并发现特征和目标之间的间接关系。研究表明,深度学习模型无需特征工程即可达到相同水平的精度[30]。在各类深度学习算法中,值得一提的是近年来引起研究界关注的图神经网络(GNN)。 GNN 适用于图数据。因此,它们自然地符合社交媒体数据。 GNN 可以捕获社交网络的结构,这是其他不是为图数据设计的机器学习模型的痛点.

    本章结构如下。第2节介绍了相关概念,即OSN的图模型和谣言的定义。第3节解释了基本的机器学习算法,包括传统的机器学习模型和神经网络模型。第 4 节展示了可用于社会谣言研究的功能。第五节回顾了基于机器学习的谣言检测、谣言源检测和谣言预防解决方案,这是谣言控制方法的三个方面。第六部分是结论。在每个部分中,都会回顾现有的研究工作,并探讨可能的潜在研究问题。

2 Related Concepts

2.1 Online Social Network

   在线社交网络(OSN)是由在线用户及其之间的关系组成的虚拟社交网络。 OSN 通常被建模为图 .G = (V , E),其中 .V = {v1,v2,...,v|V | } 表示所有节点,.E ⊆ V × V 表示所有边。 .eij ∈ E 表示节点 .vi 和 .vj 之间有一条边。该图可以是有向的或无向的,具体取决于 OSN 的内在特征。帕拉维奇尼等人。 [56]将用户之间的关系分为两种类型(图1):

• “双向”:用无向图表示,典型的社交平台是Facebook。 Facebook 上的朋友都互相关注。已连接的用户可以交换私人消息并查看彼此的个人资料和最近的活动。朋友形成一个封闭的社交网络,成员彼此认识。

• “星”:用有向图表示。典型的社交平台是Twitter。信息的发送者和接收者是不平等的,彼此不认识。

每个社交网络都与一个信息传播模型相关联。在众多类型的模型中,最流行的是线性阈值(LT)模型和独立级联(IC)模型,它们在[32]中提出,具有许多实际应用背景。

  在 IC 模型中,信息扩散由离散步骤组成。每个节点都有两种状态:活动和非活动。活跃意味着该信息已被节点接受。最初,一组特定的节点(称为种子)被设置为活动状态,而其他节点则设置为非活动状态。与每个弧(即有向边).(u, v) 相关联,存在传播概率 .puv.Ifu 在步骤 t 处变为活动状态,然后 u 尝试在步骤 .t + 1 处成功激活每个不活动邻居 v概率.puv。两个重要规则如下: (a) 仅允许在步骤 .t + 1 处尝试 u,而不是稍后。 (b) 如果有两个或多个节点 .u1, ..., uk 尝试激活 v,则这些尝试被视为独立事件,即激活 v 的成功概率为 .1 − (1 − pu1v) ···(1−pukv)。扩散过程在没有非活动节点被激活的步骤结束。

   在LT模型中,每个节点有两种可能的状态:活动和非活动。每个弧 .(u, v) 都与一个权重 .wuv 相关联,这样对于每个节点 v, . E u∈N−(v) wuv ≤ 1在LT模型中,每个节点有两种可能的状态:活动和非活动。每个弧 .(u, v) 都与一个权重 .wuv 相关联,这样对于每个节点 v, . E u∈N−(v) wuv ≤ 1.

   当信息扩散过程结束时,预期的活跃节点数称为影响力扩散。不同信息扩散模型中的问题可能具有不同的计算复杂度。例如,考虑影响力最大化问题,即给定一个具有扩散模型且整数 .k>0 的社交网络,找到 k 个种子以最大化影响力扩散。在具有 LT 模型的特殊网络(称为树状网络)中,影响最大化是多项式时间可解的 [80]。然而,与 IC 模型相同的网络中的相同问题是 NP-hard [47]。更令人惊讶的是,以下仍然开放。

       可能的研究 1 对于具有积极影响力模型的一般社交网络中的影响力最大化,是否存在多项式时间的良好近似(例如常数近似)?积极影响模型的定义可以在[74, 95]中找到,它是一般阈值模型[86]的一个特例。对于一般阈值模型的某些情况,已经证明如果 P./=NP [45, 46],则不具有多项式时间常数近似。然而,积极影响模型并不在其中。

      从以上背景我们可以清楚地知道,在传统的社会网络问题研究中,明确信息传播模型的背景是很重要的。在这里,让我们提到一系列关于 LT 或 IC 模型变体中的谣言的作品 [16,24,55,71,72,91,92,98]。机器学习方法的一个有趣的优点是,有时,信息扩散模型可能不一定是明确已知的[70]。

2.2 Rumor

   谣言没有通用的定义,不同的出版物提出了不同的描述。迪丰佐等人。 [13]将谣言定义为“在含糊、危险或潜在威胁的背景下出现的未经证实且工具相关的信息陈述,其功能是帮助人们理解和管理风险”。 《韦氏词典》将谣言解释为“没有明确来源的广泛传播的言论或观点,以及未经已知权威证实其真实性的声明或报告”。肖等人。 [87]提出定义为“谣言是指未经政府公开证实或已被政府否认的信息。它有虚假的、匿名的、非官方和其他特征。”大多数定义从三个方面描述谣言:

1、传闻未经证实。 2.谣言有传播的力量。 3.谣言会造成负面影响。

   本章的重点是揭穿谣言并最大限度地减少谣言的传播。所以我们重点强调前两个方面。因此,我们提出谣言的定义为“谣言是指散布的其真实性未经证实或最终被证实为虚假的信息”。

  与谣言类似的一个概念是假新闻。一些学者对假新闻有更严格的定义,应该以新闻文章的形式出现[5]。由于OSN上的假新闻和OSN上的谣言有根本的相似之处,即假新闻在流传时也是未经证实的,并且可以在OSN上广泛传播,因此本章中我们不区分谣言和假新闻。

3 Machine Learning Technique Models

3.1 Conventional Machine Learning Models

SVM

  在深度学习兴起之前,支持向量机(SVM)是用于分类和回归任务的最有效的监督机器学习算法之一[53]。 SVM 的工作原理是将数据映射到 N 维特征空间并找到一个超平面作为决策边界。 SVM 的目标是找到一个超平面,该超平面与最近的数据点(也称为支持向量)的距离最大。 SVM还可以通过集成核函数来处理非线性分类任务[9](图2)。

Decision Tree

   决策树[61]使用树结构来表示分类或回归的进度。当用于回归任务时,决策树称为回归树。决策树由三种类型的节点组成:

• 根节点:所有输入样本的表示。

• 内部节点:属性测试的表示。

• 叶节点:决策结果的表示。

   在决策树中,是在树的内部节点以特定的属性值进行判断。判断结果决定进入哪个分支。当到达代表类标签的叶节点时算法结束(对于回归任务,叶节点输出一个值)。设计了多种算法来生成决策树,最广泛使用的是 ID3、C4.5 和 CART。

   图 3 显示了如何做出购买计算机决定的决策树。从根节点到叶子节点,我们评估CPU型号、RAM大小和存储大小,直到到达叶子节点作为最终决策。

   决策树模型易于解释和可视化。由于其高效率,它可以应用于大型数据集。但随着树深度的增长,决策树很容易出现过拟合的情况。克服过度拟合的一种方法是修剪,这是一种通过删除树的某些部分来降低决策复杂性的技术。另一种方法是使用随机森林来代替单个决策树。

Random Forest

   随机森林是一种用于分类和回归的集成学习算法。随机森林由在不同样本上训练的决策子树组成。每个决策树都会生成自己的预测。对于分类任务,类标签通过多数投票从决策树的输出中进行选择。对于回归任务,它对每棵树的输出进行平均作为结果。与单个决策相比,随机森林对数据变化的敏感度较低。因此,随机森林是比决策树更鲁棒的模型,可以缓解过度拟合问题。

Logistic Regression

   逻辑回归是一种监督分类算法。该算法常用于二元分类。该算法将独立属性的线性组合用sigmoid函数包装起来,强制其输出值在0和1之间。对于二元分类,输出只能是0或1,这是由0.5作为阈值决定的。算法的训练阶段旨在学习属性线性组合的权重。除了二元逻辑回归之外,其他变体还包括用于多类分类的多项逻辑回归,以及用于有序类分类的序数回归。

   图 4 是线性回归的示例。通过拟合sigmoid函数来区分两类样本,以0.5为阈值,0.5以上的分类为1,0.5以下的分类为0。

3.2 Neural Network Models

Recurrent Neural Network

   循环神经网络(RNN)是一种基于序列数据训练的神经网络,广泛应用于自然语言处理(NLP)、时序数据分析等。RNN的特点在于其结构,循环连接神经元。与假设输入是独立的传统神经网络不同,RNN 循环连接神经元,并且可以随时间展开形成链状结构。 RNN神经元将最后一个时间步作为当前时间步的输入,所有神经元共享参数。也就是说RNN是有记忆的。然而,记忆是短期的,因为当输入序列很长时,RNN 冲浪者会出现梯度消失或爆炸问题。

   x表示时间序列元素,h表示隐藏状态。时间序列元素依次输入到同一个 RNN 单元,RNN 单元将根据当前输入和每个输入的先前隐藏状态生成当前隐藏状态。输入最后一个时间序列元素后,生成基于机器学习的谣言控制隐藏状态包含整个序列的记忆。等号两边是RNN神经网络工作流程的两种常见表示,它们是等价的。

   长短期记忆(LSTM)[29]是RNN的增强版本,具有学习长序列数据的能力。 LSTM 在 RNN 神经元中添加了几个小型神经网络,称为门。这些门调节信息的流动,以确保有用的信息被保留,不重要的信息被丢弃。本质上,门可以看作是一种注意力机制。门控循环单元 (GRU) [3] 是 LSTM 的变体。它具有更简单的神经元结构,但不影响性能。因此,GRU近年来变得越来越流行(图5)。

Convolution Neural Network

   卷积神经网络(CNN)[39]在计算机视觉领域取得了显着的成功,并已用于图像分类[39]、对象检测[22]和人脸检测[63]。一维 CNN,也称为时滞神经网络,适用于时间序列数据。典型的 CNN 架构是卷积层和池化层的堆栈。

 • 卷积层:CNN 的主要组成部分。它使用可学习的参数过滤器(或内核)提取特征(或特征图)。滤波器沿着输入的宽度和高度应用(对于一维 CNN,仅沿着高度),并且输入和滤波器的重叠部分之间的点积被估计并按顺序存储。这样,卷积层就学习了输入的空间特征和位置。结果被发送到激活函数,然后发送到池化层。

• 池化层:虽然卷积在提取特征图方面很有效,但它也会学习特征的位置。如果输入特征映射位置发生变化,模型性能可能会显着下降。池化层的目的是对特征图进行下采样,以使模型对位置不那么敏感并且更加鲁棒。它接收卷积层的输出并应用池化操作。常见的池化操作包括平均池化和最大池化。

通过堆叠卷积层和池化层,CNN 学习信息的局部相关性,并将低级特征映射到高级特征。这就是为什么CNN适合学习图像和文本数据(图6)。

Attention

  LSTM 将信息嵌入到固定长度的向量中,无论输入有多长。向量长度决定了可以存储的信息量。尽管LSTM缓解了RNN的长期记忆问题,但在处理长序列时其性能仍然会下降。注意力机制是 Vaswani 等人提出的。 [77]。旨在解决将长序列嵌入到定长向量中所带来的信息损失。注意力机制为输入序列的项目分配不同的权重并突出显示关键部分。

Graph Neural Network

   图神经网络,顾名思义,是一种可以处理图数据的神经网络。 GNN 已应用于计算机视觉[2]、药物发现[21]、推荐系统[93]等。

  数据可以分为欧几里德数据和非欧几里德数据。文本和图像等数据可以清晰地表示为网格。文本是一维网格,图像像素形成二维网格。网格中的点是有序的,并且邻居的数量和顺序是预先定义的。传统的神经网络对于基于欧几里得数据的任务取得了优异的结果。而社交网络是一个图,是典型的非欧几里得数据,没有网格状结构,图上的节点是无序的,每个节点的邻居数量也不固定。传统的神经网络不能很好地处理图数据[7]。因此,GNN 近年来受到越来越多的关注。

   在处理图数据时,GNN 与传统神经网络相比有两个主要优点。首先,传统的神经网络无法正确处理图数据输入,因为它们按预定义的顺序处理输入,而图节点没有排序。由于 GNN 对节点的输入顺序不敏感,这个问题得到了解决。其次,传统的神经网络无法捕捉节点的依赖关系,或者只能将依赖关系视为节点特征。而 GNN 根据节点连通性更新节点表示,保留图结构信息。

  典型的图神经网络的计算过程由两个步骤组成[89]每个神经网络层中的操作可以抽象为两个步骤:(i)AGGREGATION:聚合邻居节点表示; (ii)组合:将邻居聚合和节点本身组合起来。

   以广泛使用的 GNN 模型 GCN [33] 为例。在每个GCN层中,所有节点的嵌入都会迭代更新,对于节点.vi,其嵌入通过以下公式更新:

 这里 x 是当前节点嵌入。 .0是可学习的权重矩阵。 .N(v)表示.vi的所有邻居节点。更新公式考虑了.N (v) 和.vi,因此它涵盖了聚合和组合。此外, .ej,i 是从源节点 .vj 到 .vi 的边的权重。 ˆ di 是 .vi 的入度值加一。通过考虑边权重和节点度,将图结构信息集成到节点嵌入.xi中。

   其他常用的 GNN 模型包括 GraphSage [27]、GIN [89]、GAT [78] 等。它们使用与 GCN 不同的聚合和组合方法。例如,GAT 使用注意力机制而不是静态聚合步骤来聚合邻居的信息。而且,GNN 通常是多层堆叠的。在 k 层 GNN 中,由于聚合步骤应用了 k 次,因此每个节点都会接收 k 阶邻域信息。这个过程在某种程度上可以看作是对社会影响力传播的模拟(图7)。

3.3 Discussion

   在机器学习的应用中,确定正确拟合所考虑问题的输入输出关系的技术模型非常重要。例如,Tong[70]成功地建立了攻击者和保护者之间关系的技术模型,以便基于输入输出对的历史数据,可以学习一种策略来计算保护者针对未来攻击者的位置。 Tong 的工作提出了以下可能的研究。

   可能的研究2 在[98]中,引入了一种鲁棒的方法来在不知道攻击者位置的情况下确定保护者位置。基于这种稳健的方法,是否有可能建立一个适合网络和保护者位置之间关系的机器学习技术模型?

   可能的研究3 在文献中,影响力类型有很多,例如适应性影响力[26, 75]、群体影响力[97, 100]、组合影响力[99]、基于社区的影响力[25]和互动感知影响力[19]。它们可以扩展到多种类型的谣言和相应类型的保护者。童的模型是否适合这些类型的谣言和保护者?如果不是,应该构建什么新模型?

4 Features

   文本内容是谣言检测最直接的材料。捏造谣言的目的是为了迅速、广泛地传播。因此,它们与普通内容相比具有一些特殊的属性。例如,谣言往往会使用极端的词语来吸引人们的注意力。根据粒度,纹理特征分为三个级别。

词汇水平

   词汇级别是单词级别的特征,例如二元语法、三元语法和词袋 (BoW)。能够反映情感倾向的词语也值得关注。事实证明,谣言往往含有较多否定、推断、试探性的词语[79]。卡斯蒂略等人。 [10]将问号、感叹号、表情符号等算作特征。权等人。 [36]利用LIWC,一种对分析文本中具有心理意义的类别中的单词进行计数的工具,并显示谣言和非谣言在积极情感词、推断动作词和认知词方面是不同的。

 句法层面

   句法级特征是句子级特征。包括句子单词的 POS 模式 [28, 101]。句子长度和语法复杂度[6, 79]、句子情感得分[6]等。

语义层

  随着深度学习的兴起,语义嵌入(例如词嵌入[52])被广泛使用,并且有效性已被证明。词嵌入模型允许我们使用预定义的密集向量来表示词。向量中的每个元素都是一个参数,将使用深度神经网络进行学习。相似的词将具有相似的向量值。与词袋(BoW)模型相比,词袋模型也将单词表示为向量。 BoW 只关注字数,而词嵌入则考虑上下文,这意味着词嵌入可以学习语义信息。 Doc2vec [38],词嵌入的扩展,也值得一提。 Doc2vec 非常适合生成短文档(例如推文)的嵌入。

4.2 Temporal Feature

   时间特征是关于谣言生命周期的模式。知道等人。 [35]比较谣言和非谣言的时间序列,并注意到非谣言的推文量往往会出现多个周期性的峰值,而非谣言往往有一个显着的峰值。马等人。 [49]跟踪特定关键词的频率随时间的变化,并注意到谣言和非谣言表现出不同的模式。

4.3 Structural Feature

    我们可以使用称为传播树的树状结构来表示谣言传播过程[85]。该树是根据谁回复谁关系构建的。根节点是原始消息,其他节点是转发消息。如果 .mito .mj 存在有向边,则意味着 .mj 响应 .mi

   传播树的结构,例如大小、深度、节点度等,可以用于揭穿谣言。权等人。 [36]比较了谣言和非谣言传播树,发现谣言传播树倾向于单例。他们还设计了15个结构特征。吴等人。 [85]提出了一种集成用户信息的新型传播树。王等人。 [81]从时间角度评估了谣言和非谣言传播树结构。它表明结构演化过程比静态结构更具区别性。
 

4.4 User Feature 

   谣言传播者通常社会影响力较低,如何利用谣言更能引起公众的关注。名人不太可能散布谣言,因为这会损害他们的声誉。用户特征包括单个用户的特征,包括“年龄”、“性别”、“注册时间”、“关注人数”等。

   权等人。 [35]研究了谣言传播者的社会影响力之间的关系。他们使用关注者、朋友和推文的数量作为社会影响力的代表,非谣言用户比谣言传播者表现出更高的特征值。此外,用户特征有利于早期谣言检测。在谣言传播的早期阶段,可获得的信息有限。用户特征比其他特征更可用。

Discussion

     根据 Kwon 等人的研究。 [35],用户特征和纹理特征在谣言传播的早期阶段更可用,有利于早期谣言检测。而对于长期阶段,结构性和时间性表现出更好的有效性。单一类型的特征只能提供有限的信息并且不可靠。例如,纹理特征是使用最广泛的特征,并且得到了深入的研究。然而,一些谣言传播者故意模仿非谣言的风格。因此,为后续的研究留下了空间。

  可能的研究4 不仅使用一种特征,而是结合多种特征进行综合判断。

5 Applications of Machine Learning in Rumor Controlling

  随着Web 2.0的发展,社交媒体用户的角色从信息接收者转变为信息生产者。由于角色的转变,近年来社交媒体平台上的谣言急剧激增,这使得谣言控制研究变得尤为重要。谣言检测和谣言拦截是谣言控制的两大研究问题。谣言检测旨在区分谣言与真实新闻,也称为基于内容的谣言识别问题[14],而谣言阻止旨在最大限度地减少社交网络中接受谣言(或受谣言影响)的用户或节点数量。谣言拦截主要有两种策略:第一,错误信息预防,旨在通过发起相反的积极级联来最大程度地减少谣言的传播;第二,谣言源识别,旨在检测谣言的可能来源或来源。社交网络中的谣言传播[20],然后从根源上清理谣言。

5.1 Rumor Detection

Problem Statement

   给定一个故事,它由消息集合.m1,m2,...,mn组成,其中.m1是源消息,.m2到.mn是回复消息。每条消息都有自己的属性,包括文本内容、图像、视频、URL等。每条消息都是由用户发布的,该用户具有性别、帐户创建时间、关注者数量等属性。谣言检测问题旨在决定这个故事是谣言还是非谣言。因此,谣言检测问题是一个分类任务

Dataset

  大部分数据集来自Twitter和微博。

• Twitter 是美国社交网络和微博平台,成立于2006 年。用户可以在Twitter 上发送最多280 个字符的短信,这些消息也称为推文。 Twitter 每天有超过 2 亿用户。

• 微博是中国最大的社交媒体之一,于2009年推出。“微博”的中文意思是微博客。它是一个类似于 Twitter、Instagram 和 Tumblr 的微博网站。微博日活用户超过2亿,月活用户超过5亿。

数据集的详细信息如表1所示。

 Evaluation Metrics

   由于谣言检测问题是一个分类问题,因此大多数分类任务常用的评估指标准确率、精确率、召回率和 F1 分数都可以应用于谣言检测问题。

   准确率是正确预测的比例。这是最直接、最容易解释的指标。然而,它没有考虑标签的分布。如果数据集严重倾斜,模型总是以非常高的准确度预测多数标签,但结果并不意味着模型能够真正判断输入是否是谣言。

   准确率是正确检测到的谣言占所有谣言预测的比例。我们想要一个高精度的模型。但是,如果精度太高,则意味着模型在进行预测时比较挑剔且过于谨慎。

   召回率代表了被预测为谣言的样本占所有谣言样本的比例。但是,如果模型始终将输入样本视为谣言,则它会获得非常高的召回率。该分数具有误导性,无法反映模型的性能。

   准确率和召回率呈相反关系。一般来说,当精确度较高时,召回值往往较低,反之亦然。通常,精度和召回率不应单独使用。

  作为精度和召回率的权衡,提出了 F1。 F1 是精确率和召回率的调和平均值。 F1的目标是尽可能提高准确率和召回率尽可能的,我们也希望两者之间的差异尽可能的小。

   相比精确率和召回率,F1给出了更公平、更全面的评估。与准确率相比,F1 是一个更稳健的评价指标,因为它考虑了数据的分布,并且在标签分布不平衡的情况下仍然可以准确地反映模型的性能。

准确率、精确率、召回率和F1的公式如下所示:

 Conventional Machine Learning Approach

  在早期研究阶段,传统的机器学习方法和特征工程方法很受欢迎。卡斯蒂略等人。 [10]通过利用 Twitter 上基于文本和转发行为以及外部资源特征链接的决策树来预测可信度水平。 Kown、Cha 和 Jung [35] 研究时间、语言和结构特征,并评估 SVM、决策树、随机森林和决策树在选定特征上的性能。吴等人。 [85]提出了一种基于图核的SVM分类器用于谣言检测。该模型接受了主题、情绪、传播模式和用户配置文件等特征的训练

RNN-Based Approach

  这是第一个引入基于 RNN 的微博谣言检测模型的研究。作者意识到社交媒体中连续文本流的时间和结构特征可以反映谣言的特征。首先,他们将事件的社会背景信息建模为可变长度的时间序列,并应用 RNN 模型来学习时间序列的时间和纹理特征。考虑到一个事件可能包含大量帖子,他们将帖子分成时间间隔,并将它们视为时间序列中的单个单元。每个单元的表示是基于词汇术语的前 K 个 TF-IDF 值生成的。然后他们开发了三种不同的 RNN 结构来学习时间序列数据,其中是 tanh-RNN、单层 LSTM/GRU 和多层 GRU。他们在 Twitter 和微博数据上测试了他们的模型,以比较不同 RNN 模型的性能。多层GRU取得了最好的性能(在Twitter数据集上的准确率达到88%,在微博数据集上的准确率达到91%),表明隐藏层可以帮助模型克服噪声。 LSTM/GRU 的性能也优于 tanh-RNN,证明了门控单元相对 tanh 单元的优越性。RvNN,它是一种用于树结构数据的循环神经网络,最初的应用是学习句子解析树 [67] 。马等人。 [51]将RvNN引入谣言检测领域。与其他 RNN 模型不同,RvNN 的输入是传播树而不是时间序列。因此,RvNN 既可以学习传播树的结构信息,也可以学习推文的语义内容。作者提出了 RvNN 的两种变体,使用自上而下和自下而上的方式来学习传播树。自上而下的RvNN从根开始,递归地将父节点的特征集成到子节点中,递归到叶节点。最后,所有叶节点的池化用于预测。自下而上的RvNN从叶节点开始直到根节点,递归地将子节点的特征集成到父节点中。最后使用根节点进行预测。

CNN-Based Approach

   卷积神经网络可以专注于局部信息,然后在更高层次上进行综合以获得全局知识。 .CNN常用于谣言检测。

   基于 CNN 的方法通常首先使用词嵌入创建一个矩阵,该矩阵可以表示句子作为模型的输入。我们可以通过这种方式收集多个连续单词之间的特征,并且在计算相同类型的特征时可以共享权重。

   萨卡等人。 [12]开发了一种基于CNN的分层架构来检测讽刺新闻,试图在句子和文档级别捕获新闻中讽刺的重要信息。尽管他们没有手动提取句子元素来表示讽刺,但他们的方法产生的结果与现有模型相同。另一方面,单层 .CNN 只能从几个相近的单词创建表示。钱等人。 [58]提出了一种两级卷积神经网络(TCNN),它可以用两种方式表示短语并捕获深层语义信息以检测文章是否欺诈。最终,TCNN 优于研究中的其他方法。由于 TCNN 能够提取深层信息并提出两级表示,因此其性能优于 CNN。

GNN-Based Approach

  卞等人。 [4]提出了一种新颖的基于GCN的谣言源检测模型BiGCN,这是将GCN应用于社交领域谣言检测的首次尝试媒体。标准GCN无法学习有向图拓扑;然而,方向对于谣言检测很重要。 Bi-GCN 是一种新颖的定向 GCN 模型,用于模拟谣言传播和传播。 Lu和Li[44]提出的GCAN使用GCN来建模用户传播,并使用共同注意力机制来建模信息源与其他用户交互之间的相关性。王等人。 [82]提出了一种结合GCN和知识图的基于内容的谣言检测模型KMGCN。 KMGCN 将文本内容转换为图形而不是序列,以更好地捕获非连续短语,并使用 GCN 提取图形的语义表示。此外,KMGCN 引入现实世界知识图作为补充语义信息,以提高预测性能。董等人。 [15]提出了GCNSI,这是第一个用于多谣言源检测问题的基于ConvGNN的模型。与其他一些谣言源检测模型相比,我们需要提前知道底层传播模型,GCNSI 更接近现实世界,因为它不依赖于底层传播模型的先验知识。宋等人。 [68]提出了 TGNF,一种基于 GNN 的解决方案,适用于连续时间动态图(CTDG)。 TGNF 捕获纹理、结构和时间特征。特别是对于学习时间传播模式,TGNF 显示出比在静态图上工作的模型更优越的性能。此外,TGNF还集成了对抗性学习[23]框架,迫使模型学习交互之间的差异而不是相似之处。

Hybrid Approach

   阿贾奥等人。 [1] 开发了一种循环神经网络和卷积神经网络的混合模型,用于检测和分类 Twitter 推文中的假新闻消息,该模型可以在不事先了解该主题的情况下识别与假新闻相关的可接受特征。借助 RNN 和 CNN 的混合模型,它可以自动查找 Twitter 消息中的特征,而无需任何有关主题域或对话主题的先验信息。然后,它使用文本和图像来识别和分类 Twitter 上的虚假新闻。由于深度学习方法允许自动特征提取,因此无需在网络中显式操作即可了解虚假文本中单词之间的关联。他们的方法的准确率为 82%。

   阿贾奥等人。 [1] 开发了一种循环神经网络和卷积神经网络的混合模型,用于检测和分类 Twitter 推文中的假新闻消息,该模型可以在不事先了解该主题的情况下识别与假新闻相关的可接受特征。借助 RNN 和 CNN 的混合模型,它可以自动查找 Twitter 消息中的特征,而无需任何有关主题域或对话主题的先验信息。然后,它使用文本和图像来识别和分类 Twitter 上的虚假新闻。由于深度学习方法允许自动特征提取,因此无需在网络中显式操作即可了解虚假文本中单词之间的关联。他们的方法的准确率为 82%。

Discussion

  RNN、CNN 和 GNN 这三种类型的神经网络都具有一组独特的特征。与捕获具有线性结构的模式相比,RNN 更好,比如谣言的时间顺序。然而,RNN 具有严格的顺序敏感结构,这意味着默认序列中的相邻元素不能互换。 CNN 还可以捕获线性结构特征,但滤波器的存在使 CNN 能够更有效地找到局部模式,并且与 RNN 不同,它们是严格顺序敏感的。而且,CNN 在 GPU 上的运行速度通常比 RNN 快得多。 GNN 作为近年来流行的一种神经网络,引起了相当大的兴趣。它能够识别图的全局结构,这是 RNN 或 CNN 无法实现的。尽管如此,它并不是 RNN 和 CNN 的完美替代品。基于 RNN/CNN 的线性谣言传播结构学习仍然是对基于 GNN 的方法的可行补充和增强。

Future Direction

模型可解释性

  通常,模型越复杂,解释起来就越困难。例如,决策树只需做出基本的条件判断即可高度解释。神经网络参数数量多,结构多层,拟合能力强,这也使得模型变得非常复杂,变成了黑匣子

  当前基于深度学习的谣言检测模型研究大多仅仅追求性能而忽略了模型可解释性问题。有些问题仍然需要回答。

  可能的研究 5 模型如何进行预测?在做出决定时哪些特征起着最重要的作用?深度学习模型的玻璃天花板是什么?研究模型的可解释性有助于我们理解谣言传播的机制,从而指导我们设计和收集特征以及改进模型。

早期检测和知识库

  由于谣言传播的危害性,尽快制止谣言传播已是大家的共识。然而,早期谣言检测具有挑战性,因为在谣言传播的早期阶段可用信息有限。从外部源引入知识,例如知识库(KB),是一种可行的解决方案。知识库以三重格式存储实体信息。每个三元组代表两个实体及其关系。知识库不仅存储广泛的实体信息,而且强调它们之间的联系。

可能的研究6 由于OSN内容种类繁多,内容可以是结构化的、非结构化的、文本、图像、视频、URL等。不可能有一个KB涵盖了所有OSN内容。对于未被揭露的部分来说,辟谣仍然是一个挑战。

动态图

  社交网络是典型的动态图。动态图是指节点、边和特征可以随时间变化的图。例如,在社交网络中,新用户可能加入,老用户可能离开,用户可能建立新关系或删除旧关系。引入的动态图可以导致新的图拓扑和新的节点配置文件。动态图友好模型应该能够捕获图的时间变化并增量更新结果。此外,动态图有两类:离散时间动态图(DTDG),由间隔时间拍摄的一系列快照组成;和连续时间动态图(CTDG),由定时节点或边缘事件列表组成。很明显CTDG更加通用。还提出了一些具有代表性的基于 CTDG 的 GNN 模型。例如,TGAT [88] 和 TGN [60]。基于 TGAT,Song 等人。 [68]提出了一种基于CTDG的假新闻检测解决方案。

可能的研究7 目前的谣言检测解决方案仍然主要基于静态图,探索动态图模型是一个有价值的方向。

5.2 Rumor Source Identification

Problem Statement

  谣言源识别重点定位社交网络中谣言的传播源或种子节点。该问题旨在了解扩散过程的反向动力学,意味着将扩散动力学追溯到其初始状态并识别开始传播谣言的第一个节点[64]。快速识别谣言来源,有助于在早期控制谣言传播,切断谣言传播的关键路径。这项研究还广泛应用于检测流行病源以控制感染传播、查找网络中计算机病毒的源头以及在无线传感器网络中定位气体泄漏源等领域[31]。一般来说,文献中的谣言源识别方法会考虑信息传播/扩散模型、网络结构和部分节点的状态,而新兴研究试图在不知道底层传播模型的情况下识别源。

   社交网络中谣言传播常用的模型有IC模型和流行病模型。广泛采用的谣言传播流行病模型有(易感者-感染者(SI)模型、易感者-感染者-易感者(SIS)模型、易感者-感染者-康复(SIR)模型和易感者-暴露-感染者模型)恢复(SEIR)。根据该模型,图中的节点处于以下状态之一: (S) 容易受到谣言影响但尚未激活的节点;感染者 (I) 已被激活或被谣言感染并且具有传染性,即他们会传播谣言;而康复者 (R) 则在完全激活期后被排除在外,因为他们不会传播谣言不再对他们的邻居了。给定一组初始源节点,上述传播模型用于生成网络状态,并根据网络观察的类型确定谣言源。

     恢复(SEIR)。根据该模型,图中的节点处于以下状态之一: (S) 容易受到谣言影响但尚未激活的节点;感染者 (I) 已被激活或被谣言感染并且具有传染性,即他们会传播谣言;而康复者 (R) 则在完全激活期后被排除在外,因为他们不会传播谣言不再对他们的邻居了。给定一组初始源节点,上述传播模型用于生成网络状态,并根据网络观察的类型确定谣言源。

  在文献中,我们可以找到大量基于算法的方法来解决源识别问题[54,90,96]。在本章的范围内,我们将重点关注基于机器学习的方法来解决这个问题。

Conventional Machine Learning Approach

   我们的目标是利用概率谣言传播模型的先验信息,根据节点的状态以及底层网络结构来识别谣言的来源。由于没有附加信息(即统一先验),因此利用最大似然(ML)估计器来最小化估计误差,即最大化正确的源检测概率。专注于这种方法的研究首先确定 ML 估计器的计算上易于处理的表示(如果可能),并评估此类估计器的源检测概率 [65]。基于这种方法的大部分工作都集中在寻找网络中的单一来源。

GNN-Based Approach

  沙阿等人。 [64]提出了一种基于GNN的方法来寻找流行病的来源,即当疾病在基于SIR和SEIR模型的网络中传播时,普通图中的零号病人。 One-hot 编码节点状态,即 xi ∈{0, 1}M,其中 M 是节点的可能状态数,其中节点状态为 {S, I, R} 或 {S, E, I, R} 是 GNN 的输入。输出是概率节点是零号病人。他们通过实验分析表明,与著名的基于算法的动态消息传递方法相比,GNN 的性能更好,因为 GNN 与模型无关,并且不需要访问流行病动态参数或图快照的时间 t。此外,与基于算法的方法相比,通过 GNN 进行推理的速度快 100 倍。李等人。 [42]还提出了一种基于 GNN 的模型,称为源识别图卷积网络(SIGN),当谣言扩散遵循 SI 模型时,可解决完整快照下的单源识别问题。他们的模型基于这样的想法:源应该位于感染子图的中心,并且远离未感染边界(也称为谣言中心性)。
   王等人。 [83]首次提出了一种半监督学习模型,称为基于标签传播的源识别(LPSI),用于当底层谣言传播模型未知时的多源检测方法。它对快照时间 t 时节点的状态进行编码,如果节点被感染则 +1,否则为 -1。根据每个节点的传播概率和节点在时间 t 的状态,确定节点在时间 t+1 的状态。输出是每个节点的标签,指示节点作为感染源的概率。 LPSI仅对每个节点编码一个整数,不足以表达网络的结构信息,并且必须知道快照的时间。为了改善这些缺陷,Dong 等人。 [14]提出了一种基于 GNN 的模型,即基于图卷积网络的源识别(GCNSI),可以在不了解底层传播模型的情况下定位多个谣言源。他们为每个节点分配一个多维向量作为 GCN 的输入。一个特征是节点的感染状态,另一个特征捕获谣言中心性和源显着性:被较大比例感染节点包围的节点更有可能是谣言源。他们还将 GCNSI 与基于算法的方法的性能进行了比较,其中 GCNSI 优于基于算法的方法。

Dataset

  文献中使用真实世界网络和合成网络来研究针对源识别问题提出的方法。在表 2 数据集名称及其来源中,上面讨论的论文使用了该数据集、该数据集中的节点和边的数量,以及图密度(即图中存在的边与最大数量之间的比率)图可以包含的边的数量是平均聚类系数,可以定义为 。电子|V| i=1 Ci ,其中 .Ci 是图中每个节点 i 的聚类系数,定义为 .Ci = ni ki ,其中 .ni 是节点 i 的 .ki 邻居之间的边数。除此之外,我们还展示了特定数据集是否用于多源检测或单源检测或两者,以及论文针对谣言源识别问题采用的扩散模型的类型。表中的数据集按节点升序排列。

Evaluation Metrics

  Top-k准确度衡量的是在k个节点中作为谣言源概率最高的节点中可以检索到谣言源。如果其中一个是真实标签,则它将预测分类为正确。 Top 1 准确率是一种特殊情况,其中仅考虑最高概率的预测。

5.3 Misinformation Prevention

Problem Statement

  错误信息预防问题源于 Kempe 等人提出的信息最大化(IM)问题。 [32]。作者还提出了两种基本扩散模型:独立级联(IC)模型和线性阈值模型。基于Kepme等人的工作,IM问题旨在在亲切度限制下选择最优种子节点集并最大化对社交网络的影响

  错误信息预防(MP)问题,在一些研究中也称为错误信息遏制问题或最低成本谣言阻止问题,被提出作为 IM 问题的变体。 MP 问题作为 IM 问题的一种变体,首先由 Budak [8] 等人提出。社交网络上存在两种相互竞争的级联:谣言级联和正面级联。 MP问题旨在通过在基本限制下选择称为保护节点的正种子集来最小化受谣言级联影响的节点数量。 MP 问题在 IC 和 LT 模型下得到了广泛的研究。布达克等人。证明当有两个级联时 MP 问题是一个子模优化问题,这保证了 .1 − 1/e 近似贪心算法的存在 [8]。然而,计算级联影响是#P-hard的,使得评估MP问题的目标函数变得困难[11]。突破来自于C. Borg等人提出的逆采样技术。基于逆向采样,[69,73,76]提出了一系列解决方案。

Machine Learning-Based Approaches

  现有研究假设底层扩散模型已知,例如 IC 或 LT 模型。然而,在现实世界中,底层扩散可能很复杂,导致现有解决方案的应用范围受到限制。

  为了在事先不知道底层扩散模型的情况下解决 MP 问题,Tong [70] 等人。提出了一种名为 StratLearner 的新方法。其核心思想是,为了参数化MP问题的目标函数,该算法以历史攻击者和最优保护者对作为输入,学习策略如何最大化参数化目标函数。 Tong 采用 SVM 来训练模型并实现了最先进的性能。

  可能的研究8 目前,该领域基于机器学习的解决方案相对较少,但却是一个值得探索的方向.

6 Conclusion

  在本章中,我们对针对在线社交网络上广泛传播的谣言问题的研究工作进行了全面的调查。我们首先介绍了基本概念,包括 OSN 和谣言,然后解释了机器学习模型和特征。然后,我们从机器学习的角度回顾了谣言检测、谣言源检测和谣言预防这三个辟谣或限制谣言传播的重要研究领域的工作。我们强调公共数据集、传统的基于机器学习的解决方案和基于深度学习的解决方案,包括最新的基于图神经网络的解决方案。同时,我们确定了未来研究的几个可能的研究方向。

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值