疫情当前,我们聊聊谣言的自动化鉴别【附代码和资料】

本文探讨了疫情期间虚假信息的盛行,以及自动化鉴别虚假信息的难点。通过实验,作者利用BERT模型对疫情谣言进行分类,展示从微博数据训练的模型在疫情谣言数据上的效果不佳,强调了数据规模和全面性对模型效果的重要性。
摘要由CSDN通过智能技术生成

NLP巴士


Table of Contents

1.前言

2.研究目的及意义

3.研究背景

3.1 为什么虚假信息如此盛行

3.2 虚假信息自动化鉴别的难点及研究方向

3.3 相关论文和数据集

4.实验:尝试用Bert对疫情谣言进行分类

4.1 数据集

4.2 模型

4.2.1 BERT的网络结构

4.2.2 BERT的输入

4.2.3 BERT的训练方式

4.2.4 基于BERT的下游任务

4.3 实验过程和结果

4.3.1 使用微博数据训练和验证模型

4.3.2 使用微博数据训练的模型预测疫情谣言

4.3.3 使用疫情谣言数据训练和验证模型

5. 总结与展望

6. 数据、代码和资料获取


1.前言

2020年真的太难了!(来自一个已经被迫在家隔离了29天的农村娃的无力吐槽)

2020年对于我来说原本也会是一个难忘的一年,新年女朋友第一次来我家,6月份硕士生涯结束,正式步入996的美好生活!没曾想2020年会如此多事,突如其来的疫情(2019-nCoV),也将我原本的计划彻底打乱。唯一让我感到好受一点的可能就是难得在家陪父母这么长时间了吧。

2.研究目的及意义

这次疫情让我感受最深的,除了隔离在家的烦闷和不便,那就是随着疫情漫天飞舞的谣言。

平时的生活中我们也会经常看到、听到各种各样的虚假信息,甚至谣言。可能因为疫情的原因,相关的谣言和虚假信息格外的多,朋友圈、微信群经常能够看到。说实话,有些谣言根据经验大体可以看出真假,但是有很多谣言是真的很难分辨,今天才信以为真,明天就有人出来辟谣,偶尔还会再来一次反辟谣,让人非常烦恼。

正是谣言的滋扰让我萌生了用模型来自动分辨谣言的想法。后文中,我们将谣言、虚假新闻等统称为虚假信息。

3.研究背景

在实验之前,我做了些简单的调研,发现虚假信息自动化鉴别的研究由来已久。

3.1 为什么虚假信息如此盛行

虚假信息的产生,绝大多数是出于利益角度的考量,这里的利益除了金钱以外,也可能是政治上的利益。例如通过编造虚假信息来引起关注,从而获取广告收入,或者让自己的产品变得畅销。政治上,为了达到操纵和宣传的目的,有时候也会故意编造一些虚假信息。

大量虚假信息的产生和传播对于社会、经济的发展非常不利,对于我们个人来说也是一件令人厌烦的事。

3.2 虚假信息自动化鉴别的难点及研究方向

难点1:一些虚假信息隐藏的较好,会利用一些真的信息来增加迷惑性,有时甚至会借助一些权威人士或机构来提升信息的可信度。

难点2:虚假信息的判别缺乏及时、权威的数据。很多虚假信息都是针对当前的实事,例如此次疫情。对于一些缺乏相关经验的人来说,很难辨识真假。而缺乏相应的数据库,也很难由模型自动化鉴别。

虚假信息自动化鉴别是一个典型的文本分类问题,我们可以直接使用一些文本分类的算法或模型,但是其效果也因数据、场景而不同。

除了直接针对虚假信息的文本内容下手,一些研究者将方向拓展到对虚假信息制造者的用户特征、发文特征以及平台特征的研究。

虚假信息鉴别是自然语言处理领域的热门研究方向之一,并且依然面临着诸多的困难和挑战。

3.3 相关论文和数据集

在撰写本文的过程中,本人搜集整理了一些相关的论文和数据集,与本文配套的代码、数据以及训练好的模型打包在了一起。获取方式在文章末尾。

4.实验:尝试用Bert对疫情谣言进行分类

4.1 数据集

实验中使用了两部分数据,一部分是从腾讯的较真平台爬取的疫情辟谣数据,另一部分是从biendat

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值