系列文章目录
- 谣言检测文献阅读一—A Review on Rumour Prediction and Veracity Assessment in Online Social Network
- 谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolutional neural networks
- 谣言检测文献阅读三—The Future of False Information Detection on Social Media:New Perspectives and Trends
- 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning
- 谣言检测文献阅读五—Leveraging the Implicit Structure within Social Media for Emergent Rumor Detection
- 谣言检测文献阅读六—Tracing Fake-News Footprints: Characterizing Social Media Messages by How They Propagate
- 谣言检测文献阅读七—EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection
- 谣言检测文献阅读八—Detecting breaking news rumors of emerging topics in social media
- 谣言检测文献阅读九—人工智能视角下的在线社交网络虚假信息 检测、传播与控制研究综述
- 文献阅读十——Detect Rumors on Twitter by Promoting Information Campaigns with Generative Adversarial Learn
文章目录
前言
文章:Earlier detection of rumors in online social networks using certainty‑factor‑based convolutional neural networks
发布期刊:Social Network Analysis and Mining
时间:2020年10月20日
1、Introduction
谣言定义:指的是故意虚假的信息或声明,或其真实价值在传播时无法验证的信息或声明
使用模型:双卷积神经网络(DCNN),使用两个CNN进行训练,然后通决策树通过两个CNN的结果得出最终的结果。
分类等级:对于事件(event)进行判断,判断该事件是否是谣言
考虑特征:1、语言:帖子的内容
2、时间:受post影响的人数和感染概率
3、结构:节点(用户)的度数(邻居的数量)、传播树的深度
相关公式定义:用户:
V
V
V
事件集合:
E
=
{
e
i
}
E=\left \{e_{i} \right \}
E={ei}
时间间隔:
τ
\tau
τ
无向图:
G
=
(
V
,
L
τ
)
G=\left ( V,L^\tau \right )
G=(V,Lτ),
L
τ
L^\tau
Lτ用户
V
V
V在
τ
\tau
τ时间段内的(lingks/edges)
帖子:
P
i
=
{
p
1
,
p
2
,
⋯
,
p
m
}
P_i=\left \{ p_1,p_2,\cdots ,p_m \right \}
Pi={p1,p2,⋯,pm},事件
e
i
e_i
ei在时间
τ
\tau
τ内的帖子集合
帖子的时间特征:
T
i
=
{
t
1
,
t
2
,
⋯
,
t
m
}
T_i=\left \{ t_1,t_2,\cdots ,t_m \right \}
Ti={t1,t2,⋯,tm}
用户\结构特征:
U
i
=
{
u
1
,
u
2
,
⋯
,
u
m
}
U_i=\left \{ u_1,u_2,\cdots ,u_m \right \}
Ui={u1,u2,⋯,um}
所以,每个事件表示为:
e
i
=
{
P
i
,
τ
,
T
i
,
U
i
}
(1)
e_i=\left \{ P_i,\tau,T_i,U_i \right \}\tag {1}
ei={Pi,τ,Ti,Ui}(1)
谣言检测模型判断结果:
R
(
e
i
)
=
{
1
i
f
e
i
i
s
r
u
m
o
r
0
o
t
h
e
r
w
i
s
e
(2)
R\left ( e_i \right )=\left\{\begin{matrix} 1 & if\ e_i\ is\ rumor\\ 0 & otherwise \end{matrix}\right.\tag {2}
R(ei)={10if ei is rumorotherwise(2)
模型其他相关信息:使用基于 CFNet 的激活函数
文章的创新点:
- 一种新颖的输入向量化方法,可对语言、时间和结构信息进行向量化。
- 一种新颖的分类模型采用两个并行的 CNN 处理输入向量和一个决策树来组合 CNN 的并行输出。
- 在 CNN 中使用基于 CFNet 的激活函数而不是 sigmoid 激活函数,以确保更早地检测谣言事件。
文章的贡献
- 使用段落矢量化和子图矢量化方法对与事件相关的时间间隔内的帖子集和相关的时间信息以及用户信息进行矢量化。这样,输入向量化产生两个不同的向量。
- 提出了一种以CFNet为激活函数的双CNN分类方法,用于谣言事件的早期检测。这里,DCNN接受其中一个CNN中有时间限制的事件帖子,并接受另一个CNN中相关的时间和用户特定信息作为输入。
- 嵌入一个决策树来组合和使用CNN的输出来生成最终的分类结果
- 四个真实世界的数据集被用于使用DCNN对谣言事件进行分类,并与其他最先进的方法进行比较。
2、相关工作
谣言检测难点:
- 短文
- 创造性的词汇变化和大量的信息流
- 大量的信息
- 对单个事件有不同观点的各种消息
- 更快地传播虚假信息,在正确的时间无法获得真实信息
之前的一些工作:
列举了一些之的工作,列举了很多基于传统机器学习进行判断的文章,例如基于随机森林进行判断,其中有一篇是基于新闻连线和虚假反馈(Qin 2016),在没有其他的相关信息的时候,这个方法能得到较好的效果,然后有列举了一些使用深度学习进行谣言检测方法,使用传播树、内容等进行谣言检测。
3、神经网络和激活函数
3.1 卷积神经网络
介绍了一下卷积神经网络的基本概念
3.2 CFNet
CFNet是一种基于确定性因子模型而非一般Sigmoid函数的激活函数。
确定性因素是指前因介词对后因介词的影响程度。确定性因素取值范围为[− 1, 1]. 在确定性因素模型中,每个介词的置信水平决定了最终规则。+1.0表示先行介词确认后置介词,而− 1.0表示后接介词肯定是错误的。( + 1.0 indicates the antecedent preposition and truly confirms the consequent preposition, whereas − 1.0 indicates consequent preposition and is definitely false)0.0表示前置介词,对后置介词没有影响。
例如:
CFNet 的激活函数是正负结合的加权特征提取方法。正权特征提取对激活函数有积极影响,而负权特征提取对给定层的整体激活有不利影响。训练集的权重更新可以是反向传播或前向传播方法。从神经网络的各种实验中,Fu 发现 CFNet 激活函数比传统的 sigmoid 激活函数更有效地对输入进行分类,增加了泛化能力。
具有特征 f 的假设 h 上的确定性因子 CF 激活函数等于对具有确认特征和非确认特征
f
−
f^-
f−的假设 h 的信任
M
b
M_b
Mb 的度量和不信任
M
d
M_d
Md的和。
M
b
M_b
Mb 和
M
d
M_d
Md分别计算为确认特征和非确认特征的总和。
4、本文提出的方法
双卷积神经网络:
- 将特定事件的帖子和相关信息转换为 CNN 的输入向量
- 构建/训练双 CNN 模型进行预测
- 使用决策树将 CNN 的输出分类为谣言与否
DCNN结构图如下:
DCNN 模块将一组与事件相关的帖子作为输入,考虑分类任务的语言、时间和结构特征。帖子的语言部分被单独提取并使用 PV-DM (转换为向量,这是一种无监督学习方法。 PV-DM 将段落的单词转换为向量,以馈入其中一个 CNN。使用 subgraph2vec 将时间和结构特征组合并转换为向量,这是一种无监督的有根子图向量方法,用于输入另一个 CNN。两个 CNN 的结果概率值随后被输入决策树以获得结果。决策树充当组合器模块,它从两个 CNN 获取输入并推断事件是否是谣言。
4.1 输入向量化
输入是一组与事件
e
e
e相关的大小为
m
m
m 的帖子,其中每个帖子都是由实际消息组成的元组,包括与帖子相关的时间和用户信息。该方法将特定时间范围内的post元组转换为 CNN 的输入向量。具体来说,元组的post部分转换为向量
v
p
v_p
vp,并且各自的时间和结构信息被转换为另一个向量
v
t
u
v_{tu}
vtu,以便在对偶 CNN 中进行并行处理。
收集指定时间间隔内与事件相关的所有帖子,并将其转换为可变长度向量,成为神经网络的输入之一。以同样的方式,通过利用第一个输入的帖子的相应时间和结构信息来对另一个输入进行矢量化。
4.1.1 预处理
LDA 聚类算法,根据时间框架对事件相关的帖子进行分组。
实际上就是将对应的帖子分到对应的事件中,现在有根据事件分好的数据集(本文所使用的数据集不是按照事件分好的)。
4.1.2 语言向量化
采用PV-DM进行语言向量化,PV-DM是一个无监督学习框架,通过考虑单词在输入中的语义位置,将输入文本、段落或文档转换为可变长度向量。PV-DM分两个阶段使用分布式内存从段落构造向量:
- 第一 阶段 ,词向量模型采用词序列
w
1
、
w
2
、
.
.
.
、
w
N
w_1、w_2、...、w_N
w1、w2、...、wN 和段落标记
D
D
D 来最大化平均对数概率。段落标记充当缺少上下文或段落主题的记忆。
在第 2 阶段,推理任务是一个多类分类,它识别每个单词的非标准化对数概率。假设其他单词在上下文中,它会预测向量中的单词位置。用于此分类的 Softmax 方程如下所示:
其中 U , b U,b U,b是Softmax参数, h h h是通过词向量的拼接计算出来的。 - 帖子的重要语义得以保留。
- PV-DM 可以很好地处理未标记的数据,这不一定需要嵌入词库。
- 结果向量的维数小于任何其他最先进的方法,例如词袋和n-gram 袋。当这个向量应用于任何神经网络时,这有助于更快的泛化。
- PV-DM 将帖子集的语言方面转换为可变长度向量。
PV-DM 的输出是 v p v_p vp ,一个向量,CNN1 的输入
4.1.3 时间和结构向量化
为了将 subgraph2vec 应用于时间和用户特定信息,以及时间图表示,需要附加用户特定的结构信息。
subgraph2vec 以矩阵形式提取子图的分布式上下文表示。此外,它有两个不同的步骤来提取向量。
首先,为网络中的每个节点生成一个有根子图。第二个过程学习第一步生成的子图的嵌入。这些嵌入是由有关子图中附加特征的信息组成的向量。
subgraph2vec 优点:
- 与其他使用随机游走生成上下文的方法不同,subgraph2vec 通过节点的邻居生成上下文。
- 结构等价的节点也源自这种方法。它是通过将相同局部结构的节点嵌入到相同的空间点来计算的。
- 一旦从这种方法中学习了嵌入,结果向量可以直接作为输入提供给 CNN,无需任何修改
Subgraph2vec 方法学习给定子图的时间和用户信息的嵌入,并将其提取为矩阵格式以便于计算。在这种情况下,提供 T U i TU_i TUi作为子图学习算法的输入。
PV-DM 和 subgraph2vec 详细算法过程如下:
4.2 双CNN模块
4.2.1 Input layer
v p v_p vp和 v t u v_{tu} vtu
4.2.2 卷积层
写的公式很复杂,但是实际上就是将前一层的卷积的结果输入到CF激活函数中
4.2.2.1 激活功能
CFNet激活函数:
a
i
a_i
ai为正值,
b
i
b_i
bi为负值。
4.2.3最大池化层
也是写了一个奇奇怪怪的公式,但是就是最简单的最大池化,然后根据 l = 2 , 4... l=2,4... l=2,4...和(10),网络的结构应该是:卷积->CFNet->Max-pooling->卷积->CFNet->Max-pooling->…
4.2.4 全连接层
Softmax用于预测作为输出的输出类[1,K]的概率分布。前一层的x输出特征(权重为w,偏差为b)应用于完全连接的层。
4.2.5 初始化和训练
优化器:Adadelta
正则函数:
l
2
−
n
o
r
m
r
e
g
u
l
a
r
i
z
a
t
i
o
n
l_2-norm\ regularization
l2−norm regularization
初始化权重:标准差为 0.01 的零均值高斯分布初始化,卷积层和全连接层的偏差初始化为 1,用于学习早期的正特征过滤,池化层的偏差初始化为 0
其他:dropout 方法
4.2.5.1 权重更新
就是使用反向传播方法更新参数。
4.2.5.2 损失函数
平方损失函数
4.3组合器模块
决策树使用CART,树构造是CART中的自顶向下实现。在分类任务中采用简单的基尼系数索引法。基尼系数是一种基于杂质的标准,在给定标签分布的情况下,用来衡量随机选择的输入被放置在不正确标签中的概率。对于包含m个类的数据集D,基尼指数可以定义为:
p
j
p_j
pj是类
j
j
j在数据集
D
D
D中出现的频率。CART是一个二进制分割分类器,它具有处理离群值和缺失属性的内置特性。基尼系数是一种非参数的索引方法,可以采用数值和分类的数据,是一种相对自动化的方法。
5、实验评价
5.1 数据集
5.2 比较方法
- RF-P:随机森林分类器(Kwon et al. 2013)
- CAMI (Yu et al. 2017):这是一种基于卷积神经网络的方法,用于早期检测谣言。
- RvNN (Ma等人2018b): RvNN是一种基于递归神经网络的识别谣言的方法。
- CallAtRumors (Chen et al. 2018):这是一种使用循环神经网络对谣言进行分类的事件级谣言检测方法。
5.3 实验设置
对于所有的数据集:实验中使用了五层CNN——两个卷积层,每个层一个池化层,最后一个全连接层。超参数设置如下:滑动窗口大小设为3、4、5,各100个feature map, dropout rate设为0.5, l 2 l_2 l2归一化率设为3。每个输入的批大小设置为50个tweet。
5.4 实验表现
在 DCNN 中,在分类的初始迭代期间识别出的谣言百分比高于其他竞争方法。这意味着当输入数据稀疏时,DCNN 比竞争方法更有效地发现谣言。从这些图中可以看出,所提出的方法是在谣言检测任务的早期阶段发现谣言事件,因为 DCNN 在数据稀疏的情况下表现良好。它证明了 DCNN 可以应用于现实世界中的早期谣言检测。