作者丨周鹏(公众号原创作者名:双鸭山学长)
学校丨中山大学硕士
研究方向丨计算语言学、语言加工、认知与教学
多模态假新闻细粒度检测基准数据集Fakeddit:
https//aclanthologorg/2020.lrec-1.755.

研究背景简述
数字媒体的使用和高效传播,为人类社会带来了诸如促进社会互动,改善信息共享等好处,但假新闻、假消息也出现了前所未有的激增。
尤其近两年由于新冠疫情的影响,社交媒体上关于疫苗、病毒等的虚假信息泛滥,甚至导致疫苗接种犹豫的增加(Islam等, 2021)和重大的经济损失 (Brown, 2019)。
因此,假新闻自动检测工具的开发对预防假新闻的负面影响具有重要作用。但目前大多数检测和分类错误内容的尝试都只集中在使用单一语言文本信息上,多模态方法较少见,它们通常将新闻分为真或假,缺乏更细粒度的分类。
在这项工作中,来自西班牙马德里著名高校卡洛斯三世大学的学者(Santiago Alonso-Bartolome, Isabel Segura-Bedmar. Multimodal Fake News Detection.2021)使用单模态和多模态的方法,在 Fakeddit 数据集(Nakamura, K., Levy, S., & Wang, W. Y. 2020)上对假新闻进行了细粒度的分类。
实验结果表明,基于结合语言文本和图像数据的卷积神经网络(CNN)架构的多模态方法效果最好,准确率为87%。一些假新闻类别,如操纵内容、讽刺或虚假连接这些分类都强烈受益于图像的使用。使用图像也可以改善其他类别的结果,但影响较小。
对于仅使用语言文本的单模态方法,来自变压器的双向编码器表示(BERT)是最佳模型,准确率达78%。因此,同时利用语言文本数据和图像数据可以显著提高假新闻检测的性能

方法
该论文的主要目的是研究单模态和多模态方法在更细粒度的假新闻上的分类检测。
为了做到这一点,他们使用了Fakeddit数据集,并将其分为以下六类不同的类别:<

本文探讨了假新闻的负面影响及自动检测的重要性。研究发现,结合语言文本和图像数据的多模态方法,如基于CNN的架构,比单模态方法(如BERT)在假新闻检测上表现更优,准确率高达87%。实验表明,多模态方法在细粒度分类中,尤其是操纵内容、讽刺和虚假连接类别上效果显著。
最低0.47元/天 解锁文章
1009

被折叠的 条评论
为什么被折叠?



