谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolu

江_小_白

已于 2022-08-11 16:53:08 修改

阅读量1.3k

点赞数 1

分类专栏：谣言检测文章标签：数据挖掘

于 2022-04-09 21:59:52 首次发布

本文链接：https://blog.csdn.net/qq_45193988/article/details/124059682

版权

谣言检测专栏收录该内容

14 篇文章 23 订阅

订阅专栏

系列文章目录

前言

文章：Earlier detection of rumors in online social networks using certainty‑factor‑based convolutional neural networks
发布期刊：Social Network Analysis and Mining
时间：2020年10月20日

1、Introduction

谣言定义：指的是故意虚假的信息或声明，或其真实价值在传播时无法验证的信息或声明
使用模型：双卷积神经网络（DCNN），使用两个CNN进行训练，然后通决策树通过两个CNN的结果得出最终的结果。
分类等级：对于事件（event）进行判断，判断该事件是否是谣言
考虑特征：1、语言：帖子的内容
2、时间：受post影响的人数和感染概率
3、结构：节点（用户）的度数（邻居的数量）、传播树的深度
社交媒体post例子相关公式定义：用户： $V$
事件集合： $E=\left \{e_{i} \right \}$
时间间隔： $\tau$
无向图： $G=\left ( V,L^\tau \right )$ ， $L^\tau$ 用户 $V$ 在 $\tau$ 时间段内的（lingks/edges）
帖子： $P_i=\left \{ p_1,p_2,\cdots ,p_m \right \}$ ,事件 $e_i$ 在时间 $\tau$ 内的帖子集合
帖子的时间特征： $T_i=\left \{ t_1,t_2,\cdots ,t_m \right \}$
用户\结构特征： $U_i=\left \{ u_1,u_2,\cdots ,u_m \right \}$
所以，每个事件表示为： $e_i=\left \{ P_i,\tau,T_i,U_i \right \}\tag {1}$
谣言检测模型判断结果：
$R\left ( e_i \right )=\left\{\begin{matrix} 1 & if\ e_i\ is\ rumor\\ 0 & otherwise \end{matrix}\right.\tag {2}$
模型其他相关信息：使用基于 CFNet 的激活函数

文章的创新点：

一种新颖的输入向量化方法，可对语言、时间和结构信息进行向量化。
一种新颖的分类模型采用两个并行的 CNN 处理输入向量和一个决策树来组合 CNN 的并行输出。
在 CNN 中使用基于 CFNet 的激活函数而不是 sigmoid 激活函数，以确保更早地检测谣言事件。

文章的贡献

使用段落矢量化和子图矢量化方法对与事件相关的时间间隔内的帖子集和相关的时间信息以及用户信息进行矢量化。这样，输入向量化产生两个不同的向量。
提出了一种以CFNet为激活函数的双CNN分类方法，用于谣言事件的早期检测。这里，DCNN接受其中一个CNN中有时间限制的事件帖子，并接受另一个CNN中相关的时间和用户特定信息作为输入。
嵌入一个决策树来组合和使用CNN的输出来生成最终的分类结果
四个真实世界的数据集被用于使用DCNN对谣言事件进行分类，并与其他最先进的方法进行比较。

2、相关工作

谣言检测难点：

短文
创造性的词汇变化和大量的信息流
大量的信息
对单个事件有不同观点的各种消息
更快地传播虚假信息，在正确的时间无法获得真实信息

之前的一些工作：
列举了一些之的工作，列举了很多基于传统机器学习进行判断的文章，例如基于随机森林进行判断，其中有一篇是基于新闻连线和虚假反馈（Qin 2016），在没有其他的相关信息的时候，这个方法能得到较好的效果，然后有列举了一些使用深度学习进行谣言检测方法，使用传播树、内容等进行谣言检测。

3、神经网络和激活函数

3.1 卷积神经网络

介绍了一下卷积神经网络的基本概念

3.2 CFNet

CFNet是一种基于确定性因子模型而非一般Sigmoid函数的激活函数。
确定性因素是指前因介词对后因介词的影响程度。确定性因素取值范围为[− 1, 1]. 在确定性因素模型中，每个介词的置信水平决定了最终规则。+1.0表示先行介词确认后置介词，而− 1.0表示后接介词肯定是错误的。（ + 1.0 indicates the antecedent preposition and truly confirms the consequent preposition, whereas − 1.0 indicates consequent preposition and is definitely false）0.0表示前置介词，对后置介词没有影响。
例如：
前置词对于后置词的影响 CFNet 的激活函数是正负结合的加权特征提取方法。正权特征提取对激活函数有积极影响，而负权特征提取对给定层的整体激活有不利影响。训练集的权重更新可以是反向传播或前向传播方法。从神经网络的各种实验中，Fu 发现 CFNet 激活函数比传统的 sigmoid 激活函数更有效地对输入进行分类，增加了泛化能力。
CF激活公式
具有特征 f 的假设 h 上的确定性因子 CF 激活函数等于对具有确认特征和非确认特征 $f^-$ 的假设 h 的信任 $M_b$ 的度量和不信任 $M_d$ 的和。 $M_b$ 和 $M_d$ 分别计算为确认特征和非确认特征的总和。

4、本文提出的方法

双卷积神经网络：

将特定事件的帖子和相关信息转换为 CNN 的输入向量
构建/训练双 CNN 模型进行预测
使用决策树将 CNN 的输出分类为谣言与否
DCNN结构图如下：
DCNN 模块将一组与事件相关的帖子作为输入，考虑分类任务的语言、时间和结构特征。帖子的语言部分被单独提取并使用 PV-DM (转换为向量，这是一种无监督学习方法。 PV-DM 将段落的单词转换为向量，以馈入其中一个 CNN。使用 subgraph2vec 将时间和结构特征组合并转换为向量，这是一种无监督的有根子图向量方法，用于输入另一个 CNN。两个 CNN 的结果概率值随后被输入决策树以获得结果。决策树充当组合器模块，它从两个 CNN 获取输入并推断事件是否是谣言。

4.1 输入向量化

输入是一组与事件 $e$ 相关的大小为 $m$ 的帖子，其中每个帖子都是由实际消息组成的元组，包括与帖子相关的时间和用户信息。该方法将特定时间范围内的post元组转换为 CNN 的输入向量。具体来说，元组的post部分转换为向量 $v_p$ ，并且各自的时间和结构信息被转换为另一个向量 $v_{tu}$ ，以便在对偶 CNN 中进行并行处理。
收集指定时间间隔内与事件相关的所有帖子，并将其转换为可变长度向量，成为神经网络的输入之一。以同样的方式，通过利用第一个输入的帖子的相应时间和结构信息来对另一个输入进行矢量化。

4.1.1 预处理

LDA 聚类算法，根据时间框架对事件相关的帖子进行分组。
LDA
实际上就是将对应的帖子分到对应的事件中，现在有根据事件分好的数据集（本文所使用的数据集不是按照事件分好的）。

4.1.2 语言向量化

采用PV-DM进行语言向量化，PV-DM是一个无监督学习框架，通过考虑单词在输入中的语义位置，将输入文本、段落或文档转换为可变长度向量。PV-DM分两个阶段使用分布式内存从段落构造向量：

第一阶段，词向量模型采用词序列 $w_1、w_2、...、w_N$ 和段落标记 $D$ 来最大化平均对数概率。段落标记充当缺少上下文或段落主题的记忆。
在第 2 阶段，推理任务是一个多类分类，它识别每个单词的非标准化对数概率。假设其他单词在上下文中，它会预测向量中的单词位置。用于此分类的 Softmax 方程如下所示：
其中 $U, b$ 是Softmax参数， $h$ 是通过词向量的拼接计算出来的。
帖子的重要语义得以保留。
PV-DM 可以很好地处理未标记的数据，这不一定需要嵌入词库。
结果向量的维数小于任何其他最先进的方法，例如词袋和n-gram 袋。当这个向量应用于任何神经网络时，这有助于更快的泛化。
PV-DM 将帖子集的语言方面转换为可变长度向量。
PV-DM 的输出是 $v_p$ ，一个向量，CNN1 的输入

4.1.3 时间和结构向量化

为了将 subgraph2vec 应用于时间和用户特定信息，以及时间图表示，需要附加用户特定的结构信息。
在这里插入图片描述 subgraph2vec 以矩阵形式提取子图的分布式上下文表示。此外，它有两个不同的步骤来提取向量。
首先，为网络中的每个节点生成一个有根子图。第二个过程学习第一步生成的子图的嵌入。这些嵌入是由有关子图中附加特征的信息组成的向量。
subgraph2vec 优点：

与其他使用随机游走生成上下文的方法不同，subgraph2vec 通过节点的邻居生成上下文。
结构等价的节点也源自这种方法。它是通过将相同局部结构的节点嵌入到相同的空间点来计算的。
一旦从这种方法中学习了嵌入，结果向量可以直接作为输入提供给 CNN，无需任何修改
Subgraph2vec 方法学习给定子图的时间和用户信息的嵌入，并将其提取为矩阵格式以便于计算。在这种情况下，提供 $TU_i$ 作为子图学习算法的输入。
PV-DM 和 subgraph2vec 详细算法过程如下：

4.2 双CNN模块

4.2.1 Input layer

$v_p$ 和 $v_{tu}$

4.2.2 卷积层

在这里插入图片描述
写的公式很复杂，但是实际上就是将前一层的卷积的结果输入到CF激活函数中

4.2.2.1 激活功能

CFNet激活函数：
在这里插入图片描述

$a_i$ 为正值， $b_i$ 为负值。

4.2.3最大池化层

在这里插入图片描述也是写了一个奇奇怪怪的公式，但是就是最简单的最大池化，然后根据 $l = 2, 4...$ 和（10），网络的结构应该是:卷积->CFNet->Max-pooling->卷积->CFNet->Max-pooling->…

4.2.4 全连接层

Softmax用于预测作为输出的输出类[1，K]的概率分布。前一层的x输出特征（权重为w，偏差为b）应用于完全连接的层。
在这里插入图片描述

4.2.5 初始化和训练

优化器：Adadelta
正则函数： $l_2-norm\ regularization$
初始化权重：标准差为 0.01 的零均值高斯分布初始化，卷积层和全连接层的偏差初始化为 1，用于学习早期的正特征过滤，池化层的偏差初始化为 0
其他：dropout 方法

4.2.5.1 权重更新

在这里插入图片描述就是使用反向传播方法更新参数。

4.2.5.2 损失函数

在这里插入图片描述

平方损失函数

4.3组合器模块

决策树使用CART，树构造是CART中的自顶向下实现。在分类任务中采用简单的基尼系数索引法。基尼系数是一种基于杂质的标准，在给定标签分布的情况下，用来衡量随机选择的输入被放置在不正确标签中的概率。对于包含m个类的数据集D，基尼指数可以定义为:
在这里插入图片描述
$p_j$ 是类 $j$ 在数据集 $D$ 中出现的频率。CART是一个二进制分割分类器，它具有处理离群值和缺失属性的内置特性。基尼系数是一种非参数的索引方法，可以采用数值和分类的数据，是一种相对自动化的方法。

5、实验评价

5.1 数据集

在这里插入图片描述

5.2 比较方法

RF-P：随机森林分类器(Kwon et al. 2013)
CAMI (Yu et al. 2017)：这是一种基于卷积神经网络的方法，用于早期检测谣言。
RvNN (Ma等人2018b): RvNN是一种基于递归神经网络的识别谣言的方法。
CallAtRumors (Chen et al. 2018):这是一种使用循环神经网络对谣言进行分类的事件级谣言检测方法。

5.3 实验设置

对于所有的数据集:实验中使用了五层CNN——两个卷积层，每个层一个池化层，最后一个全连接层。超参数设置如下:滑动窗口大小设为3、4、5，各100个feature map, dropout rate设为0.5, $l_2$ 归一化率设为3。每个输入的批大小设置为50个tweet。

5.4 实验表现

在这里插入图片描述

在这里插入图片描述

在 DCNN 中，在分类的初始迭代期间识别出的谣言百分比高于其他竞争方法。这意味着当输入数据稀疏时，DCNN 比竞争方法更有效地发现谣言。从这些图中可以看出，所提出的方法是在谣言检测任务的早期阶段发现谣言事件，因为 DCNN 在数据稀疏的情况下表现良好。它证明了 DCNN 可以应用于现实世界中的早期谣言检测。

江_小_白

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolu

系列文章目录谣言检测文献阅读一—A Review on Rumour Prediction and Veracity Assessment in Online Social Network谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolutional neural networks 文章目录系列文章目录前言1、Introduction2.相关工作
复制链接

扫一扫