如何判别假新闻?多模态假新闻检测

本文探讨了假新闻的负面影响及自动检测的重要性。研究发现,结合语言文本和图像数据的多模态方法,如基于CNN的架构,比单模态方法(如BERT)在假新闻检测上表现更优,准确率高达87%。实验表明,多模态方法在细粒度分类中,尤其是操纵内容、讽刺和虚假连接类别上效果显著。
摘要由CSDN通过智能技术生成

作者丨周鹏(公众号原创作者名:双鸭山学长)

学校丨中山大学硕士

研究方向丨计算语言学、语言加工、认知与教学

多模态假新闻细粒度检测基准数据集Fakeddit:

https//aclanthologorg/2020.lrec-1.755.

研究背景简述

数字媒体的使用和高效传播,为人类社会带来了诸如促进社会互动,改善信息共享等好处,但假新闻、假消息也出现了前所未有的激增。

尤其近两年由于新冠疫情的影响,社交媒体上关于疫苗、病毒等的虚假信息泛滥,甚至导致疫苗接种犹豫的增加(Islam等, 2021)和重大的经济损失 (Brown, 2019)。

因此,假新闻自动检测工具的开发对预防假新闻的负面影响具有重要作用。但目前大多数检测和分类错误内容的尝试都只集中在使用单一语言文本信息上,多模态方法较少见,它们通常将新闻分为真或假,缺乏更细粒度的分类。

在这项工作中,来自西班牙马德里著名高校卡洛斯三世大学的学者(Santiago Alonso-Bartolome, Isabel Segura-Bedmar. Multimodal Fake News Detection.2021)使用单模态和多模态的方法,在 Fakeddit 数据集(Nakamura, K., Levy, S., & Wang, W. Y. 2020)上对假新闻进行了细粒度的分类。

实验结果表明,基于结合语言文本和图像数据的卷积神经网络(CNN)架构的多模态方法效果最好,准确率为87%。一些假新闻类别,如操纵内容、讽刺或虚假连接这些分类都强烈受益于图像的使用。使用图像也可以改善其他类别的结果,但影响较小。

对于仅使用语言文本的单模态方法,来自变压器的双向编码器表示(BERT)是最佳模型,准确率达78%。因此,同时利用语言文本数据和图像数据可以显著提高假新闻检测的性能

方法

该论文的主要目的是研究单模态和多模态方法在更细粒度的假新闻上的分类检测。

为了做到这一点,他们使用了Fakeddit数据集,并将其分为以下六类不同的类别:<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NLP论文解读

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值