虚假新闻检测论文阅读（三）：Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings

最新推荐文章于 2024-10-04 22:36:54 发布

Quinn-ntmy

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量313

点赞数

分类专栏：论文笔记文章标签：人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/weixin_43421371/article/details/125938469

版权

论文笔记专栏收录该内容

8 篇文章 1 订阅

订阅专栏

论文标题：Semi-supervised Content-based Detection of Misinformation via Tensor Embeddings
论文来源：IEEE 2018

#基于新闻文本、#半监督、#图结构

一、文章动机

大多数现有工作都集中在利用大量标记文章的手动特征提取和监督分类模型上。但真实情况下往往没有很多标注好的数据，仅存在少量的标签。

二、主要工作

作者模拟上述的情况，将新闻文章的集合表示为多维张量，利用张量分解导出简洁的文章嵌入，用来捕获每篇文章的空间/上下文信息，并使用这些嵌入创建逐篇文章的图，在图上传播有限的标签。
利用张量表示和新闻文章的分解，仔细构建KNN图以及传播有限的标记文章信息来对更大的集合进行推理：
（1）利用基于张量的文章嵌入推导出新闻文章的图表示；
（2）制定半监督方法，在图上传播已知标签以确定未知标签；
（3）收集在社交媒体上公开分享的大量错误信息和真实新闻文章数据集；
（4）在真实数据集上评估所提出的方法。
在这里插入图片描述

1. 将文章内容表示为张量（Tensor decompositon）
提出了两种不同的张量构造方法：
（1）基于频率的张量：构建了一个三模张量(word, word, news)，其中对于每篇新闻文章创建一个非零的共现矩阵
（2）基于二进制的张量：构建了一个张量(word, word, news），其中所用出现的条目都是布尔值，指示第i个和第j个单词是否至少在预定义窗口中出现一次。

2. 新闻文章的KNN图
使用步骤1中计算出的张量嵌入构建了新闻文章的图形表示，使用因子矩阵C构建新闻文章的KNN图G，C中的每一列都是潜在主题空间中相应新闻文章的表示，因此，通过在C上构建一个KNN图，我们可以在该空间中找到类似的文章。
具体操作：
（1）将C中的每一行视为R维空间中的一个点；
（2）计算新闻之间的 $l_2$ 距离并找到C中每个点的k-最近点【新闻文章数量在实践中非常大，可以利用基于 kd-tree（k维树） 的优化以便更高效地为每篇文章找到k最近邻】；
（3）G中的每个节点代表一篇新闻文章，每条边编码两篇文章在嵌入空间中相似；
最终图G是一个无向的对称图，其中每个节点都连接到至少k个节点。图紧凑表示为M×M邻接矩阵。