【论文解读 AAAI 2019 | UFD】Unsupervised Fake News Detection on Social Media: A Generative Approach-CSDN博客

本文链接：https://blog.csdn.net/byn12345/article/details/113467236

本文介绍了一种无监督的假新闻检测方法，通过在社交媒体上利用用户的行为数据，尤其是分层参与模式，构建贝叶斯网络模型来识别新闻真实性。文章提出了一种基于坍塌吉布斯采样的算法，无需标注数据，有效评估用户可信度并超越同类无监督技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文题目：Unsupervised Fake News Detection on Social Media: A Generative Approach

论文来源：AAAI 2019

论文链接：https://www.aaai.org/ojs/index.php/AAAI/article/view/4508

代码链接：无

关键词：无监督；假新闻检测；社交网络

概率图推导看的眼花缭乱，这篇文章读得半懂不懂的，我数学太菜了…

1 摘要

本文解决的是假新闻检测问题。

现有方法的局限性

绝大多数方法都是有监督的，需要大量的人力和时间构建高质量的数据集。

本文提出

（1）使用无监督的方式检测假新闻。

（2）将新闻的真实性和用户的可信度视为隐藏的随机变量，并利用用户在社交媒体上的行为来识别他们对新闻真实性的看法。

（3）利用贝叶斯网络模型捕获新闻真实性、用户观点和用户可信度之间的条件依赖。为了解决推断问题，作者提出一个有效的坍塌的吉布斯采样方法，不使用任何标注数据，实现对新闻真实性和用户可信度的推断。

实验结果表明该方法超越了其他无监督的方法。

2 引言

动机

（1）现有的假新闻检测方法绝大多数都是基于监督学习的方法，需要大量高质量的标注数据训练分类模型，耗费时间和人力。

（2）使用众包的方法进行数据标注的质量堪忧。而且，单个人自己若没有领域专家的知识，很难区分真假新闻。

本文提出

使用无监督的方法检测假新闻。

利用社交媒体上的用户和新闻帖子的交互抽取出用户的观点，然后使用设计好的无监督方法聚合用户的观点得到我们估计的结果。

作者发现随着新闻的传播，用户的参与是不同的，例如发布新闻帖子、点赞、跟帖或回复帖子。这些信息在某种程度上反映了用户对新闻的观点。

挑战

（1）社交媒体上用户的参与信息以及抽取出的用户观点，通常是冲突的和不可信的，因为用户在识别假新闻时通常具有不同的可信度。

（2）假新闻是精心撰写的，目的就是为了误导读者，因此大多数用户的观点可能是不可信的。使用多数投票和均值等简单的方法是不行的。

（3）可使用真相发现算法（turth discovery algorithms），使用多个数据源解决信息冲突问题。然而这种算法仅适用于source-item模型，可视为二部图，其中每个边表示每个source-item对的数据。可是，社交媒体上的新闻、帖子和用户间的关系是很复杂的，现有的真相发现算法不适用。

本文提出的方法

本文提出无监督框架UFD。

首先，通过分析用户在社交媒体上的行为，抽取出用户对新闻的观点；
然后，构建贝叶斯概率图模型捕获新闻真相的完整生成过程以及用户观点。
提出了一个有效的坍塌吉布斯采样方法，以检测假新闻并评估用户的可信度。

3 模型

3.1 分层用户参与

用户分层参与模型的概览如图2所示。

对于数据集中的每个新闻，都可以得到和其相关的一系列帖子，以及相对应的用户行为（点赞、转发和回复）。

由知名大V发布的帖子可以吸引更多的注意力，大多数未认证的、不出名的用户得到的关注较少。基于这一发现，作者将用户分为两类：1）认证过的用户；2）未认证的用户。

在准备数据时，作者仅考虑由认证过的用户发布的帖子，以及相关的未认证用户的社交行为。

这样做的好处：

（1）可缓解长尾现象。因为，未认证的用户发布的帖子占绝大多数，但和这些帖子有关的社交行为很少，考虑这些帖子将会引入大量的噪声，不利于识别假新闻。

（2）将用户分为已认证和未认证用户两类，引入了一个隐含的假设：已认证的用户可能在辨别真假新闻时有更高的可信度。

（3）利于模型的简化。社交媒体上的用户行为是复杂的、不完全的、有噪声的，完美地描述用户行为是很难的。通过聚焦于一小部分的数据，可以简化接下来的问题建模并且减少问题形式化的复杂度。

3.2 问题建模

$\mathcal{N}$ ：新闻集合
$\mathcal{M}, \mathcal{K}$ 分别表示已认证的和未认证的用户集合；
对于给定的新闻 $i\in \mathcal{N}$ ， $\mathcal{M}_i \subseteq \mathcal{M}$ 表示发布了和该新闻相关的帖子的已认证用户；
对于每个已认证用户 $j\in \mathcal{M}_i$ 的帖子，收集未认证用户的社交行为 $\mathcal{K}_{i,j} \subseteq \mathcal{K}$ ；
对于新闻 $i$ ， $x_i\in {\{0, 1}\}$ 表示新闻的真实性，0表示假新闻，1表示真新闻。

为了判断新闻是否是假新闻，我们需要从用户的交互行为中抽取出用户对新闻的观点。

对于已认证的用户 $j\in \mathcal{M}_i$ ，令 $y_{i, j}\in {\{0, 1}\}$ 表示用户对新闻的观点，1表示用户认为新闻为真，0表示用户认为新闻为假。

$News_i$ 表示新闻内容， $Tweet_{i,j}$ 表示用户 $j$ 自己的帖子的文本。 $y_{i, j}$ 可以定义为用户对 $Tweet_{i,j}$ 的情感，或者是对 $Tweet_{i,j}$ 的观点是否和对 $News_i$ 的观点冲突。

对于已认证用户 $j$ 发布的关于新闻 $i$ 的帖子，许多未认证的用户可能点赞、转发或者回复该帖子。令 $z_{i, j, k}\in {\{0, 1}\}$ 表示未认证用户 $k\in \mathcal{K}_{i, j}$ 的观点。

假设：

（1）若用户 $k$ 点赞或者转发了帖子，则表示 $k$ 同意该帖子的观点；

（2）若 $k$ 回复了帖子，则可以使用现成的情感分析或冲突观点挖掘方法，抽取出他的观点；

（3）未认证用户针对同一帖子进行了多种行为，例如点赞并回复。则使用多数投票方法得到其观点。

3.3 概率图模型

给定 $x_i, y_{i, j}, z_{i, j, k}$ 的定义，我们给出UFD框架，概率图模型如图 3所示。

图中的每个节点都表示一个随机变量或者先验参数，其中深色节点和浅色节点分别表示可观察到的和隐式的变量。

1、新闻

对于新闻 $i$ ，表示其真假的 $x_i$ 从伯努利分布中得到：

参数 $\theta_i$ 的先验概率是从超参数为 $\gamma = (\gamma_1, \gamma_0)$ 的贝塔分布中得到的，其中 $\gamma_1$ 是先验真实计数， $\gamma_0$ 是先验虚假计数。如果不能很确定，则可以为每个新闻是真或假分配均匀先验分布。

2、已认证用户

对于每个已认证用户 $j$ ，使用两个变量 $\phi^1_j, \phi^0_j$ 建模其识别假新闻的可信度。其中， $\phi^1_j$ 表示真阳率（sensitivity）， $\phi^0_j$ 表示假阳率（1-specificity ）。

这两个参数表示在给定新闻是真或假的真实估计的条件下，用户 $j$ 认为新闻是真实的概率。使用分别带有参数 $\alpha^1 = (\alpha^1_1, \alpha^1_0)$ 和 $\alpha^0 = (\alpha^0_1, \alpha^0_0)$ 的贝塔分布分别得到每个用户的真阳率和假阳率。贝塔分布的参数： $\alpha^1_1$ 表示先验真阳计数， $\alpha^1_0$ 表示先验假阴计数， $\alpha^0_1$ 表示先验假阳计数， $\alpha^0_0$ 表示先验真阴计数。

给定 $\phi^1_j$ 和 $\phi^0_j$ ，每个已认证用户 $j$ 对新闻 $i$ 的观点可以从带有参数 $\phi^{x_i}_j$ 的伯努利分布中得到：

3、未认证用户

和已认证用户不同，未认证用户参与了已认证用户的帖子，他们的观点可能受到新闻本身以及已认证用户观点的影响。

因此对于每个未认证用户 $k\in \mathcal{K}$ ，接下来的4个变量将用于建模其可信度：

对于每个 $v)\in {\{0, 1}\}^2$ ， $\psi^{u, v}_k$ 表示在给定新闻的真实估计 $u$ 和已认证用户的观点 $v$ 的条件下，用户 $k$ 认为该新闻为真的概率。

每个 $\psi^{u, v}_k$ 由超参为 $\beta^{u, v}$ 的贝塔分布中得到：

给定新闻的真实估计 $x_i$ 和已认证用户的观点 $y_{i, j}$ ，可从参数为 $\psi^{x_i, y_{i, j}}_k$ 的伯努利分布中得到未验证用户的观点：

3.4 问题形式化

我们的目标是找到最大化联合概率的隐藏真实变量的实例，例如为 $x$ 得到最大化后验概率（MAP）：

其中， $\Phi$ 和 $\Psi$ 分别表示 ${\{\phi^0, \phi^1}\}$ 和 ${\{\psi^{0,0}, \psi^{0,1}, \psi^{1,0}, \psi^{1,1}}\}$ 。

4 假新闻检测算法

作者提出有效的坍塌吉布斯采样算法以同时估计新闻的真实性和用户的可信度。

4.1 吉布斯采样

准确地推断是不可行的，于是作者使用吉布斯采样方法估计多元分布。由于指数族的共轭性，未知参数 $\theta, \Phi, \Psi$ 可在采样过程中被整合掉。因此，我们仅需要基于如下的条件概率，迭代地采样每个新闻的真实性：

其中 $s\in {\{0, 1}\}$ ， $x_{-i}$ 表示除了新闻 $i$ 以外的所有新闻的真实估计。

4.2 更新规则

使用贝叶斯规则，等式（2）可以重写为：

其中 $y_{i, *}$ 表示关于新闻 $i$ 的所有已认证的用户的观点， $z_{i, *, *}$ 表示关于新闻 $i$ 的所有未认证的用户的观点。

等式（3）中的第一项是先验，第二项是可能性。先来看第一项，其中 $\Beta$ 是贝塔函数：

对于等式（3）中的第二项，有：

对于等式（5）中的内部项，有：

其中， $n^{s, y_{i, j}}_{k, -i, z_{i, j, k}}$ 表示当新闻不是 $i$ ，新闻 $i$ 的真实估计为 $s$ ，已认证用户对新闻 $i$ 的观点为 $y_{i, j}$ 时，未认证用户 $k$ 的观点值为 $z_{i, j, k}$ 的个数。对于等式（6）的最后一步有：

对于等式（5）的外部项，有：

其中 $m^s_{j, -i, y_{i, j}}$ 是当新闻不是 $i$ 并且新闻的真实估计为 $s$ 时，观点值为 $y_{i, j}$ 的已认证用户的个数。等式（7）的最后一步有：

结合等式（4）、（6）和（7），我们得到坍塌吉布斯采样的更新规则：

4.3 假新闻检测算法

算法1中展示了伪代码。

首先，随机初始化每个新闻的真实估计为0或1；
基于初始的真实估计，计算每个已认证和未认证用户的计数；
迭代进行采样过程。每个迭代中，在等式（8）条件分布中采样每个新闻的真实估计，并更新每个用户的计数。

正如其他马尔科夫链蒙特卡罗（MCMC）算法一样，吉布斯采样器生成了与附近样本相关的样本的马尔科夫链。因此，链开头的样本或许不能准确地表示想要的分布，因此我们抛弃了最初几次迭代的样本（the burn-in period）。此外，还进行了thinning操作，以减少样本中的相关性。最终骂我们计算得到的样本的平均值，并缩放到0和1之间以作为新闻最终的估计。

4.4 用户可信度

用户识别假新闻的可信度可以很容易地使用封闭形式解获得，因为后验概率也是一个贝塔分布。

对于每个已认证用户 $j\in \mathcal{M}$ ，真阳率和假阳率如下：

其中 $\mathbb{E}[m^{x_i}_{j, y_{i, j}}]$ 是新闻真实估计为 $x_i$ 且 $j$ 的观点为 $y_{i, j}$ 时， $j$ 计数的期望值。可以使用采样过程中记录的 $m^{x_i}_{j, y_{i, j}}$ 的平均值计算得到。每个未认证用户的真阳率和假阳率也可以相应地计算得到。