谣言检测论文精读——2.IJCAI2017-A Convolutional Approach for Misinformation Identification

论文读后笔记+小结

1.Abstract

CAMI 可以灵活地提取分散在输入序列中的关键特征,并形成重要特征之间的高级交互,有助于有效识别错误信息并实现实用的早期检测。 在两个大规模数据集上的实验结果验证了 CAMI 模型在错误信息识别和早期检测任务上的有效性。
基于特征工程的方法无法在重要特征之间形成精细的高级交互来模拟现实世界的社交媒体场景,而 CNN 不仅可以自动提取局部-全局来自输入实例的重要特征,而且揭示了那些高级交互
这项工作的主要贡献如下:

  • 我们使用无监督方法段落向量来学习输入微博帖子的表示,并使用监督方法 CNN 来自动获取错误信息和真实信息的关键特征。
  • 我们将所提出的模型所捕获的内容可视化,这将有助于我们理解社交媒体信息所具有的固有属性。
  • 在两个真实世界数据集上进行的实验表明,CAMI 更有效,并且在错误信息识别和早期检测任务中明显优于最先进的方法。

2.Related Work

该部分主要介绍早期有关谣言检测的相关工作和CNN。
CNN 由堆叠的卷积层和池化层组成,其架构有助于对重要的语义特征进行建模,并在各自领域取得很大改进。 例如,CNN 已成功应用于语音识别 [Abdel-Hamid et al., 2012]、句子语义分析 [Kalchbrenner et al., 2014]、点击率预测 [Liu et al., 2015]、图像语义 分割 [Zhao et al., 2017] 和强化学习任务 [Tamar et al., 2016],CNN 通常通过随机梯度下降 (SGD) 进行训练,并通过反向传播来计算梯度。

3.Dataset Analysis

该部分介绍所使用的数据集
我们在两个大型微博数据集上评估模型:微博和 Twitter 数据集,Twitter 数据集中分别属于错误信息和真实信息的事件数分别为 498 和 494,微博数据集中分别为 2,313 和 2,35 1。

4.Proposed CAMI Model

该部分主要介绍CMAI模型

问题定义

给定一组事件,每个事件包括一系列相关的微博帖子,每个微博帖子都与一个时间戳相关联。 这里的任务是在事件级别识别事件是否是错误信息,即通过分析事件的相关微博序列来检测事件是否是错误信息
如下图所示的 CAMI 模型的框架。 自下而上,大致有以下三个迷你模块。
在这里插入图片描述
因为错误信息也可能以说真话的形式描述,所以我们很难从特定帖子中识别错误信息。相对来说,我们从时间的相关微博帖子序列中检测错误信息更合理。又由于错误信息和真实信息的固有属性在错误信息识别中起着关键作用,所以我们将某个事件的所有微博帖子作为一个整体来处理,然后对事件的这些属性建模

将一个事件的所有相关微博帖子分成几个组。 我们打算将一个事件的所有相关微博帖子分组到一系列时间窗口中,并通过对微博帖子组建模来提取整体特征。

  • 为什么分组?一个事件一般平均由数千条相关微博组成,事件数量差异巨大。 此外,某些特定时间窗口内的微博帖子是如此相关,以至于我们可以将这些相邻的微博帖子视为一个代表特定事件阶段的组。
  • 如何分组?有两点需要考虑。 首先,所有事件都需要以统一的方式进行拆分,以便提取的区别特征有意义。 例如,真实信息往往在开始时被发布或转发并很快消失,而错误信息通常在中间阶段引起相对持续的关注。 所以同一时间窗口内不同信息的微博数量可能不同。 我们应该比较同一时间窗口内的微博帖子数量,获得的多样性是有意义的。 其次,我们确保尽可能保持事件的一个阶段不间断,即那些最相关的微博帖子在一个代表事件阶段的组内
    具体来说:我们收集所有相关微博帖子的时间戳,并从每个事件的所有时间戳中减去相应事件的起始时间戳。 然后将这些时间戳标准化为 0-1 比例。 最后将整组时间戳按时间顺序平均分成 20 份,每个时间窗口公式为
    在这里插入图片描述
    其中 ti 是第 z 个份额的终点

通过段落向量学习每个组的表示。 我们将一个时间窗口的微博帖子视为一个事件阶段,并用一系列阶段对事件的整体特征进行建模
一个时间窗口内一组微博帖子的一个事件阶段可以看成一个段落来学习段落表示gj
在这里插入图片描述
预测是通过softmax进行的,
在这里插入图片描述
给定 N 个单词的段落,单词由 W 中的列向量 w n 表示,段落由 D 中的列向量 gj 表示。此外,Θ 是 softmax 参数,h 是连接或平均操作。 利用上下文词和段落记忆来预测当前词。
此外,那些没有任何微博帖子的组用零向量表示。 值得指出的是,该模型的输入固定大小为 20,CAMI 输入层的段落向量在后续训练过程中不会更新。

通过 CNN 对高级交互进行建模。 CNN 的常用架构包括卷积层、kmax 池化层和全连接层。
对于具有 n 个阶段的输入事件实例 ei,每个阶段嵌入为 gi∈R^d, 我们可以得到实例矩阵 G∈R^dxw,在卷积网络中,卷积层是由权重矩阵 C∈R^dxw 对下一层的激活矩阵进行逐行卷积运算得到的。随后将非线性函数应用于卷积结果,可以得到特征图的一个元素:
在这里插入图片描述
其中 G[:, i : i + w - 1] 是 G 的第 i 到 (i + w - l) 列,下标 F 是 Frobenius 内积,即对应元素的乘积之和 两个矩阵。 最后,我们对特征图 f 进行 k-max pooling 以捕获最重要的特征。
此外,可以重复上述卷积和池化操作以产生更深的层。 最后,有一个全连接层和最终输出 pei 是通过softmax获得的。 pei 是预测事件 ei 是否属于错误信息的概率。

5.Experiments

该部分介绍如何进行实验以及对比的模型和实验结果
为了经验性地评估我们的方法在错误信息识别方面的性能,我们在两个大型微博数据集上进行了实验。 几种方法用于与我们的比较
(1) GRU-2 在输入层之后配备了两个 GRU 隐藏层和一个嵌入层。 增强的 GRU 隐藏层有助于获得特征的高级交互 [Ma et al., 2016]。
(2) SVM-TS 是一种线性 SVM 分类器,它使用时间序列结构来对社会上下文特征的变化进行建模,并根据内容、用户和传播模式提取这些手工制作的特征 [Ma et al., 2015]。
(3) DT-Rank 是一种基于决策树的排序模型,通过基于统计特征对聚集的有争议的事实主张进行排序来识别趋势谣言 [Zhao et al., 2015]。 DTC 是一种决策树分类器,用于建模信息可信度 [Castillo et al., 2011]。
(4) S VM-RBF 是一个基于 SVM 的模型,带有 RBF 内核 [Yang et al., 2012]
(5) RFC 是一个随机森林分类器,具有三个参数来拟合时间推文音量曲线 [Kwon et al. , 2013]
在所有实验中,我们随机选择 10% 的数据集进行模型调整,其余 90% 以 3:1 的比例随机分配用于训练和测试。
在这里插入图片描述
在这里插入图片描述
一共可以对比得出以下两个结论:

  1. 所提出的 CAMI 模型可以在很早的时间内达到相对较高的准确度,而其他方法需要更长的时间才能表现得足够好。 此外,所提出的 CAMI 模型的准确性在任何阶段都处于领先地位
  2. 在某些情况下,GRU-2 可能无法及早发现错误信息。 尽管如此,所提出的 CAMI 模型的卷积和最大池化操作甚至可以从有限的输入序列中灵活地提取关键特征,这使得所提出的 CAMI 模型更有效地应用于错误信息的早期检测

改论文主要的贡献就是提出的CAMI模型可以有效的对高级交互建模,并通过与RNN等对比体现了用于错误信息的早期检测的明显优势,而CAMI的实现主要依赖于CNN,该框架的输入是一组微博帖子的的段落向量。段落向量是用一个时间窗口的所有事件特征进行建模。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值