![](https://img-blog.csdnimg.cn/20210131213628135.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2J5bjEyMzQ1,size_16,color_FFFFFF,t_70)
论文题目:Semi-Supervised Learning and Graph Neural Networks for Fake News Detection
论文链接:https://ieeexplore.ieee.org/document/9073625
代码链接:无
关键词:半监督学习;GNN;假新闻检测
这篇文章就2页,简单记录一下。
1 引言
本文解决的是假新闻检测问题。
作者提出基于图的半监督假新闻检测框架。作者认为基于图的模型表达能力较强,可以捕获文章间的上下文依赖,缓解标签不足的问题。
本文提出的框架由三部分组成:1)得到文章在欧式空间的嵌入表示;2)构建文章相似图;3)使用图学习算法推断缺失的标签。
贡献点:
(1)使用词嵌入在低维的欧式空间得到新闻文章的表示,然后使用基于图的表示捕获文章间的上下文相似度。
(2)将假新闻检测问题看成是半监督的图学习任务,使用GNN框架在标注数据有限的情况下得到较好的效果。
(3)在假新闻数据集上进行实验,本文提出的方法超越了之前的基于内容的方法,并且需要更少的标注数据。
2 方法
模型概览如图1所示。 M M M表示文章数。
![](https://img-blog.csdnimg.cn/20210131213559940.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2J5bjEyMzQ1,size_16,color_FFFFFF,t_70)
本文的基于图的模型由以下三部分组成:
(1)文章的嵌入:使用预训练的Glove词向量,计算文章中所有单词嵌入的平均,作为该文章的嵌入表示。
(2)图的构建:文章作为图中的节点,对于每个文章,基于在嵌入空间中的欧氏距离为其选取 k k k个最近的邻居,构建连边。
(3)分类:使用两个GNN方法,即GCN和AGNN(注意力图神经网络)
3 实验
数据集
在[1]中的数据集上进行实验,该数据集一共有150个标注的文章,75为真,75为假。
![](https://img-blog.csdnimg.cn/2021013121372526.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2J5bjEyMzQ1,size_16,color_FFFFFF,t_70)
4 结论
本文聚焦于基于文本的虚假信息检测,假设有标签的文章数很有限,使用半监督的方法预测未标注的文章是否是假新闻。
数据集不是这个领域广泛应用的数据集,并且数据量太少,实验对比的baselines也没有这个领域比较新的方法。
参考文献
[1] Horne, B. D., and Adali, S. (2017). This just in: fake news packs a lot in title, uses simpler, repetitive content in text body, more similar to satire than real news. In ICWSM Workshops.