一、概要
本篇文章的主要贡献是收集了一个多模态的新闻数据集(FakeSV)并基于该数据集训练了一个新的真假新闻检测的模型(SV-FEND),并以该模型的效果作为该数据集的基线。
二、FakeSV介绍
在之前的新闻检测数据集中,存在数据量少、特征模态不够多、新闻涉及面单一等问题。在FakeSV数据集中,首次将用户(发布视频的人)信息也归为一种模态。最后该数据集的情况如下展示:
首先注意到该数据集来源是抖音和快手,所以处理的语言就是中文。然后数据集所包含的领域是全领域的,并不像之前只关注健康或者疫情新闻。
1.数据获取流程
首先先从一些官方的网站爬取一些官方核实的新闻文章(2019.1-2022.1)。将没有“视频”一词的文章忽略,然后用启发式的正则表达式来提取文章的关键句子,再使用Bert编码这些句子,用K-mean方法去除重复的新闻事件。最后得到854个新闻事件。
有了具体事件后再去抖音和快手两个网站上爬取相关的视频,对于爬取到的视频,需要收集:视频、封面、题目、发布时间;元数据(即点赞数、转发数)、前100条评论;发布者信息(自我简介、IP地址、粉丝数、前100个发布视频封面等)共三大类信息。下图展示其爬取的信息: