AAAI 2023 | 基于联合学习与用户传播行为的虚假新闻早期检测

最新推荐文章于 2024-04-20 15:53:36 发布

PaperWeekly

最新推荐文章于 2024-04-20 15:53:36 发布

阅读量1.1k

点赞数

文章标签：学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247604545&idx=3&sn=998f38ed3771c60fd863fe1b605320d2&chksm=96eb86c1a19c0fd700ec23f0e09e8907397d5465f56441cc792c484971f7ad61f39b70000456&scene=126&sessionid=0

版权

研究提出了一种名为HG-SL的联合学习模型，该模型通过超图神经网络学习全局用户传播行为，并利用自注意力模块捕捉局部传播模式，以在早期识别假新闻。该模型不依赖新闻内容和用户身份，能有效抵御异常用户和社交机器人对检测的影响。实验结果显示， HG-SL在假新闻检测任务上表现出色，尤其在早期检测中，仅使用少量用户参与或传播时间就能达到高准确率。

摘要由CSDN通过智能技术生成

©作者 | 社媒派SMP

来源 | 社媒派SMP

论文题目：

HG-SL: Jointly Learning of Global and Local User Spreading Behavior for Fake News Early Detection

文章来源：

AAAI 2023

论文作者：

孙菱（西安交通大学），饶元（西安交通大学），兰玉乾（西安交通大学），夏昺灿（西安交通大学），李阳阳（中国电子科技集团）

研究动机

近年来，假新闻伪造技术不断进化，甚至用户的个人属性也可能是伪造的，这对涉及文本或用户身份的传统假新闻检测方法的鲁棒性和有效性提出了挑战。

经典的假新闻检测方法主要基于新闻内容的语义或风格。然而，鉴于假新闻是故意为了误导消费者而编造的，这种方法很难识别伪装良好的假新闻。最近的研究试图通过补充新闻评论信息、参与者的属性及社交网络来强化检测效果，虽然这些策略提高了检测的有效性，但它们不可避免地会被社交机器人美化后的身份或恶意操纵者给出的有益的虚假评论所欺骗。

如图 1，异常用户欺骗一个普通用户传播假新闻与合作做出虚假评论，进一步造成混乱。

▲ 图1. 全局和局部用户传播行为样例，假新闻和异常用户用红色突出显示

与涉及文本或用户属性的方法相比，欺骗仅依赖传播行为的检测模型需要干扰涉及许多普通用户的整体传播模式，这使得这些方法在理论上更加难以被欺骗。但当前大多数基于传播模式的检测方法主要依靠神经网络来学习单个新闻的传播模式，这不足以描述新闻和用户影响力的差异，也忽略了新闻和用户之间有价值的全局联系，限制了检测的性能。

解决方案

为了同时提升检测的鲁棒性和有效性，我们提出了一个联合学习模型 HG-SL，如图 2 所示，该模型不依赖新闻内容和用户身份，但能够通过深入学习全局和局部的用户传播行为在传播早期捕捉真假新闻的差异。

具体来说，我们设计了一个基于超图的全局交互学习模块，从用户的共同传播行为中捕获用户的全局偏好，并引入节点中心性编码来补充用户在全局的影响力。此外，设计的基于自注意力的局部上下文学习模块首次在行为学习过程中引入了传播状态（传播速度、深度等），从而突出了新闻和用户的传播能力，为验证新闻的真实性提供了额外的信号。

▲ 图2. 模型结构

1. 基于超图的全局交互学习

用户的类似机器人的标志和偏好可以从他们的行为和与其他用户的联系中反映出来，这暗示了用户的可信度，并为假新闻检测提供了有价值的线索。因此，我们构造了一个超图来描述用户的全局共同传播行为，并利用超图神经网络和节点中心性编码进行学习。

由于简单图上的中心性指标，如度中心性和接近中心性不适用于超图，我们将活动度定义为超图中用户的中心度，因为活跃用户提供了更丰富的信息。我们使用一个嵌入函数生成中心性向量，将其直接添加到原始用户表示向量中，再输入具有节点->超边及超边->节点两个聚合阶段的超图神经网络中进行学习。

2. 基于自注意力的局部上下文学习

上一阶段图神经网络学习主要关注新闻和用户之间的全局关系，其无法描述特定新闻下的内部交互情况。因此，我们将传播状态整合到两个多头自注意力模块中，从结构和时序两方面学习新闻的局部表征。局部时序学习的细节如图3所示。我们将用户和序列的时间编码分别作为自注意力学习前后的补充。

▲ 图3. 局部时序学习过程

在计算用户层面的时间编码时，我们保留参与目标序列的每个用户的时间戳，以反映参与者之间的时间差异。由于时间戳不是连续的，我们使用参与者的绝对顺序作为自注意力训练的位置信息。上述两个嵌入将直接添加到从超图中学习到的用户表示中，输入自注意力学习模块以获得序列的时间感知表示。

在自注意力学习之后，我们补充序列的时间编码。由于传播的持续时间和从发文到转发的平均响应时间有助于反映新闻的传播速度，因此我们将上述两个特征作为序列级的时间特征。鉴于上述特征是数值类型，我们直接将它们作为补充特征拼接到自注意力学习到的序列表示上。

局部结构学习类似于时序学习，我们训练了另一个具有结构编码的自注意力模块来获取结构感知的局部新闻表示。用户的结构编码由用户在级联中引起的转发次数表示，以突出用户的局部重要性。此外，该用户在级联中所处的深度将作为自注意力学习的位置信息提供。级联的结构编码则是使用子级联的数目和非孤立的级联的比例来表示，以代表新闻传播的广度和吸引力，最后将它们作为补充特征拼接到自注意力学习到的结构表示上。

3. 融合与检测

为了结合学习到的结构和时间局部传播特征，以获得更具表达性的表示，我们引入了一种门控融合机制，以自适应地结合这两种表示。最后，利用 Softmax 函数计算目标新闻是假的概率。

主要实验结果

我们在两个公共数据集上比较 HG-SL 与基线模型，结果如表 1 所示。我们的模型取得了最优的表现，在 politifact 数据集上的准确率为 90.05%，在 Gossipcop 数据集上的准确率为 98.04%，分别高于次优模型 UPFD5.7% 和 0.95%。

▲ 表1. 模型在假新闻检测上的实验结果

早期检测的目的是尽早识别假新闻，从而尽量减少假新闻的影响。我们定义了两种早期检测场景：限制用户参与的数量（推文/转发）和限制检测截止日期，并进行了比较实验，如图 4，5 所示。

图 4 说明在两个数据集上的所有模型的检测精度随着参与度的增加而稳步提高，并且 HG-SL 总是取得最高的分数，其在两个数据集上，只使用前 10 次用户参与就可以达到 77.37% 和 93.28% 的准确率。与限制用户参与数量的场景不同，限制检测截止日期允许传播更快的新闻包含更多的训练数据。检测截止日期与两个数据集上的平均用户参与次数之间的关系如图 5(a) 和 5(c) 所示。

实验结果参考图 5(b) 和 5(d)，在 politifact 数据上，我们的模型使用少于 4 小时的数据（79.85%）就优于次优模型 UPFD 在前 24 小时的性能 (78.53%)。在 Gossipcop 上，我们仅取前 4 小时的数据（95.27%）甚至超过了 HPFD 在 36 小时的性能（95.21%）。

▲ 图4. 限制用户参与的数量（推文/转发）的早期检测

▲ 图5. 限制检测截至日期的早期检测

总结

我们提出了一种新的联合学习模型 HG-SL。为了提高检测的可靠性，我们使用超图神经网络嵌入用户的全局关系，同时利用多头自注意力模块学习局部传播模式，以全面捕捉真实和假新闻之间的区别。引入的全局节点中心性和局部传播状态进一步突出了用户的影响和新闻的传播能力。实验表明，HG-SL 在假新闻（早期）检测任务上的性能显著优于基线模型。在未来，我们计划考虑其他行为和用户的立场，以提高检测的可解释性。

更多阅读