FaskSV：丰富背景知识+多模态的短视频新闻检测

komjay

于 2024-04-07 21:16:47 发布

阅读量1.7k

点赞数 11

分类专栏：论文阅读文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/komjay/article/details/137472822

版权

一、概要

本篇文章的主要贡献是收集了一个多模态的新闻数据集(FakeSV)并基于该数据集训练了一个新的真假新闻检测的模型(SV-FEND)，并以该模型的效果作为该数据集的基线。

二、FakeSV介绍

在之前的新闻检测数据集中，存在数据量少、特征模态不够多、新闻涉及面单一等问题。在FakeSV数据集中，首次将用户（发布视频的人）信息也归为一种模态。最后该数据集的情况如下展示：

首先注意到该数据集来源是抖音和快手，所以处理的语言就是中文。然后数据集所包含的领域是全领域的，并不像之前只关注健康或者疫情新闻。

1.数据获取流程

首先先从一些官方的网站爬取一些官方核实的新闻文章（2019.1-2022.1）。将没有“视频”一词的文章忽略，然后用启发式的正则表达式来提取文章的关键句子，再使用Bert编码这些句子，用K-mean方法去除重复的新闻事件。最后得到854个新闻事件。

有了具体事件后再去抖音和快手两个网站上爬取相关的视频，对于爬取到的视频，需要收集：视频、封面、题目、发布时间；元数据（即点赞数、转发数）、前100条评论；发布者信息（自我简介、IP地址、粉丝数、前100个发布视频封面等）共三大类信息。下图展示其爬取的信息：

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。