Table of Contents
1.前言
2020年真的太难了!(来自一个已经被迫在家隔离了29天的农村娃的无力吐槽)
2020年对于我来说原本也会是一个难忘的一年,新年女朋友第一次来我家,6月份硕士生涯结束,正式步入996的美好生活!没曾想2020年会如此多事,突如其来的疫情(2019-nCoV),也将我原本的计划彻底打乱。唯一让我感到好受一点的可能就是难得在家陪父母这么长时间了吧。
2.研究目的及意义
这次疫情让我感受最深的,除了隔离在家的烦闷和不便,那就是随着疫情漫天飞舞的谣言。
平时的生活中我们也会经常看到、听到各种各样的虚假信息,甚至谣言。可能因为疫情的原因,相关的谣言和虚假信息格外的多,朋友圈、微信群经常能够看到。说实话,有些谣言根据经验大体可以看出真假,但是有很多谣言是真的很难分辨,今天才信以为真,明天就有人出来辟谣,偶尔还会再来一次反辟谣,让人非常烦恼。
正是谣言的滋扰让我萌生了用模型来自动分辨谣言的想法。后文中,我们将谣言、虚假新闻等统称为虚假信息。
3.研究背景
在实验之前,我做了些简单的调研,发现虚假信息自动化鉴别的研究由来已久。
3.1 为什么虚假信息如此盛行
虚假信息的产生,绝大多数是出于利益角度的考量,这里的利益除了金钱以外,也可能是政治上的利益。例如通过编造虚假信息来引起关注,从而获取广告收入,或者让自己的产品变得畅销。政治上,为了达到操纵和宣传的目的,有时候也会故意编造一些虚假信息。
大量虚假信息的产生和传播对于社会、经济的发展非常不利,对于我们个人来说也是一件令人厌烦的事。
3.2 虚假信息自动化鉴别的难点及研究方向
难点1:一些虚假信息隐藏的较好,会利用一些真的信息来增加迷惑性,有时甚至会借助一些权威人士或机构来提升信息的可信度。
难点2:虚假信息的判别缺乏及时、权威的数据。很多虚假信息都是针对当前的实事,例如此次疫情。对于一些缺乏相关经验的人来说,很难辨识真假。而缺乏相应的数据库,也很难由模型自动化鉴别。
虚假信息自动化鉴别是一个典型的文本分类问题,我们可以直接使用一些文本分类的算法或模型,但是其效果也因数据、场景而不同。
除了直接针对虚假信息的文本内容下手,一些研究者将方向拓展到对虚假信息制造者的用户特征、发文特征以及平台特征的研究。
虚假信息鉴别是自然语言处理领域的热门研究方向之一,并且依然面临着诸多的困难和挑战。
3.3 相关论文和数据集
在撰写本文的过程中,本人搜集整理了一些相关的论文和数据集,与本文配套的代码、数据以及训练好的模型打包在了一起。获取方式在文章末尾。
4.实验:尝试用Bert对疫情谣言进行分类
4.1 数据集
实验中使用了两部分数据,一部分是从腾讯的较真平台爬取的疫情辟谣数据,另一部分是从biendat