虚假新闻检测论文阅读(三):Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings

论文标题:Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
论文来源:IEEE 2018

#基于新闻文本#半监督#图结构

一、文章动机

大多数现有工作都集中在利用大量标记文章的手动特征提取和监督分类模型上。但真实情况下往往没有很多标注好的数据,仅存在少量的标签。

二、主要工作

作者模拟上述的情况,将新闻文章的集合表示为多维张量,利用张量分解导出简洁的文章嵌入,用来捕获每篇文章的空间/上下文信息,并使用这些嵌入创建逐篇文章的图,在图上传播有限的标签。
利用张量表示和新闻文章的分解,仔细构建KNN图以及传播有限的标记文章信息来对更大的集合进行推理:
(1)利用基于张量的文章嵌入推导出新闻文章的图表示;
(2)制定半监督方法,在图上传播已知标签以确定未知标签;
(3)收集在社交媒体上公开分享的大量错误信息和真实新闻文章数据集;
(4)在真实数据集上评估所提出的方法。
在这里插入图片描述

1. 将文章内容表示为张量(Tensor decompositon)
提出了两种不同的张量构造方法:
(1)基于频率的张量:构建了一个三模张量(word, word, news),其中对于每篇新闻文章创建一个非零的共现矩阵
(2)基于二进制的张量:构建了一个张量(word, word, news),其中所用出现的条目都是布尔值,指示第i个和第j个单词是否至少在预定义窗口中出现一次。

2. 新闻文章的KNN图
使用步骤1中计算出的张量嵌入构建了新闻文章的图形表示,使用因子矩阵C构建新闻文章的KNN图G,C中的每一列都是潜在主题空间中相应新闻文章的表示,因此,通过在C上构建一个KNN图,我们可以在该空间中找到类似的文章。
具体操作:
(1)将C中的每一行视为R维空间中的一个点;
(2)计算新闻之间的 l 2 l_2 l2距离并找到C中每个点的k-最近点【新闻文章数量在实践中非常大,可以利用基于 kd-tree(k维树) 的优化以便更高效地为每篇文章找到k最近邻】;
(3)G中的每个节点代表一篇新闻文章,每条边编码两篇文章在嵌入空间中相似;
最终图G是一个无向的对称图,其中每个节点都连接到至少k个节点。图紧凑表示为M×M邻接矩阵。

3. Belief Propagation
使用一种假设同质的信念传播算法。
使用快速和线性化的FaBP变体:
(1)该算法被证明对已知标签的大小不敏感,因此认为FaBP仅使用少量已知标签即可实现良好的学习性能。
(2)FaBP在G中的边缘数上是线性的,因此可用于大规模图形。

三、数据集

1、Political(150篇政治新闻文章);
2、Bulgarian(68篇真实新闻和69篇假新闻)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值