虚假新闻检测方法研究:《Dual emotion based fake news detection A deep attention-weight update approach》

虚假新闻检测方法研究:《Dual emotion based fake news detection: A deep attention-weight update approach》

期刊:Information Processing and Management SCI基础版 工程技术2区

原文地址:https://doi.org/10.1016/j.ipm.2023.103354

录用时间:2023年3月


提出的方法

  • 利用双重情感特征(发布新闻者的情感和社会群体大众的情感)来检测假新闻,描述这两种情绪:发布者情绪是发布者在社交媒体网站上发布新闻内容时的情绪。社交情绪是指人群或用户响应社交媒体帖子时的情绪。假新闻检测系统应该考虑假新闻中经常出现的这两种情绪之间的关系。
  • 该研究提出了一种基于深度归一化注意力的机制,用于丰富提取双重情感特征,并提出了一种用于分类的自适应遗传权重更新随机森林(Adaptive Genetic Weight Update-Random Forest :AGWu-RF)
  • 基于深度归一化注意力的机制结合了 BiGRU,它通过提取长范围的上下文信息来提高特征值,从而消除梯度爆炸问题
  • 模型的遗传权重根据 RF 进行调整并更新,以实现支持分类器检测精度的优化超参数值
  • 融合注意力机制的方法对于捕获对话结构中的关键信息至关重要

由于谣言传播早期没有足够的评论,所以该方法不适合早期的谣言检测

具体实现

  • 在这项工作中,作者考虑八种基本情绪(预期、愤怒、惊讶、恐惧、悲伤、快乐、厌恶和信任)和两种情绪极性(积极和消极)

  • 情感特征是指从新闻内容(发布者情感)和用户评论(社会情感)中提取的情感

  • 本文预处理推文采用的数据集是:RumourEval19

  • 方法的具体流程:输入句子对(双重情感:发布者和社交情感),进行预处理,以消除数据重复和不一致,避免对模型的预测率产生负面影响。在这个阶段,删除特殊字符因为特殊字符不会为文本理解提供任何价值,并且还会产生噪音。然后执行标记化,将输入文本划分为有意义的片段,称为标记,有助于上下文理解或开发 NLP 模型。此过程还支持通过检查单词序列来解释输入文本的含义,进行向量化,将词汇表中的短语或单词映射到相应的实数向量,以便稍后用于识别单词相似性。这些向量用作深度归一化注意力卷积神经网络双向门控循环单元的输入,用于仅提取与双重情感相对应的相关特征,此过程使用两个 GRU。特征提取后,将数据分为训练集和测试集,然后使用所提出的自适应遗传权重更新随机森林进行分类。流程图如下:

在这里插入图片描述

  • 作者提出的基于深度归一化注意力和 AGWu-RF 框架由三个模块组成:(i) 嵌入层 (ii) 特征提取层 (iii) 遗传权重自适应

    • 嵌入层:作者在嵌入层中采用 CNN,因为它可以提取和区分情感分类系统所需的文本元素。使用带有卷积层和最大池化层的一维 CNN,CNN 层由 16 个滤波器(内核大小 5)组成,具有 1 个步长、SAME 填充层和 ReLU 激活函数,卷积层对句子矩阵应用过滤,经过卷积运算后,模型检索与数据对应的特征。由于检索到的特征的维度很高,为了最小化这个问题并降低训练成本,在卷积层之后集成了池化层以最小化特征的维度,得到的向量作为 bi-GRU 的输入。

      训练深度归一化注意力模型过程中所需的步骤如下:

      在这里插入图片描述

    • 特征提取层:具有注意力的 Bi-GRU GRU 是用于收集时态数据的简化且专业的网络,它是流行的 LSTM 顺序学习网络的简化版本,GRU 有两个门:更新门和重置门,与 LSTM 网络类似,GRU 网络在不使用单独的记忆单元的情况下改变单元内的信息,它还能够依靠单词的长度来改善长距离,从而防止最小样本上的过拟合并增强稳定性,bi-GRU的实际优势在于它可以同时提取后向和前向的隐藏层特征,这使得它可以有效地获取上下文信息

    • 具有自适应遗传权重更新的分类 - 随机森林 (AGWU-RF) 作者使用 AGWU-RF 来确定协助分类的所有必要特征,并选择有助于构建最佳分类模型的特征子集。

数据集和实验

  • 作者使用 RumorEval19 、Pheme 和 Fakeddit 数据集进行实验和分析

    • RumorEval19数据集由Twitter和Reddit有关谣言的讨论组成,源推文表达了谣言或非谣言以及与新闻事件相关的相关评论,数据集被注释为真、假,且未经相关地面事实验证,作者只使用数据集中的真实和虚假新闻标签进行实验

    • Pheme 数据集用于根据推文(新闻)和相应的用户评论对假新闻进行二元分类,该数据集使用与九个有新闻价值的事件相关的 Twitter 线程;,悉尼围城事件、查理周刊、渥太华枪击事件等。一条线索由一条推文(新闻)和一系列评论组成,作者使用新闻来源的原始推文和相关评论

    • Fakeddit 是一个多模式假新闻数据集,该数据集由一百万个虚假和真实信息样本组成,分为六类,它还包括用于分类的真假新闻二元基本事实以及细粒度的三类和六类分类。

    • 数据集的分布如下:

      在这里插入图片描述

  • 作者为 Pheme 和 Fakeddit 数据集创建训练、验证和测试子集,并使用精度 §、召回率 ® 和 F1 分数作为评估指标

  • 作者与一系列基线假新闻检测方法进行比较如下:

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值