新闻文本数据集_一文看懂虚假新闻检测(附数据集 & 论文推荐)

本文深入探讨了假新闻检测的模型构建、数据集和特征挖掘。介绍了基于内容和社交网络的建模方法,以及相关数据集如FakeNewsNet、LIAR等。此外,还分析了数据挖掘在识别假新闻特征中的应用,并引用了几篇具有代表性的学术论文,如‘News Verification by Exploiting Conflicting Social Viewpoints in Microblogs’。文章最后提到了假新闻挑战赛和相关资源。
摘要由CSDN通过智能技术生成

f0afe84986f48f6f9b12667c75f534f9.png

作者丨孙子荀

单位丨腾讯科技高级研究员

研究方向丨多模态内容质量

本人过去几年一直从事内容质量方面的算法工作,近期出于兴趣对假新闻这个问题做了一些调研,简单总结一下提供读者参考。在某种程度上假新闻的是一个微观领域问题,它和谣言分类,事实判断,标题党检测,垃圾内容挖掘等都比较类似,在宏观上说都属于内容质量的领域,所以很多方法其实是通用的框架。

本文主要简单介绍了我们的做法和几篇具有典型代表的假新闻论文,从不同的方法路径去了解多模态、网络游走、特征挖掘等手段在假新闻领域上的一些实践。

模型构建

根据 [Kai Shu, 2017] 的划分,模型在这里主要有两类:1)基于内容的建模;2)基于社交网络的模型。

1. 基于内容建模

有 1.1 面向知识和事实库的和 1.2 面向行文风格的。

1.1 面向知识库

事实检查系统有点类似谣言鉴别系统 ,对文章描述的观点和客观事物进行校真,类似 QA 系统是一个比较复杂的 NLP 领域,包括知识表示、知识推理。在知识库数据集上有集中划分方式:

1. 专家系统:各个领域的专家构建的知识库, 显然这种方式的效率和扩展性都非常差。 不过如果是垂直类目(生物,历史)那或许可以在某个客观事实比较多的类目下进行尝试;

2. 集体智慧:用户集体知识的反馈来构建的一套知识库。

1 和 2 有了之后其实可以通过类似检索的方法,来对新的内容进行相似度判断,从而充分利用积累的历史内容提供出来的特征指示。

3. 基于算法分类:使用知识图谱或者事理图谱来对内容进行真实性判断,当前主要的开放知识图谱有 DB-pedia 和 Google Relation Extraction 数据集。

这个领域的问题,类似 NLP 的 QA 问题,有兴趣的同学可以参考 [Yuyu Zhang, 2017] 的 VRN变分推理网络。

c884dddf45e88760bb5514a3d71d4012.png

作者通过概率模型来识别问句中的实体,问答时在 KB 上做逻辑推理,且推理规则将被学习出来。即可用于做事实判断。

当前这个方向技术落地成本高,难度较大,效果也不一定理想。

1.2 面向内容风格

用文章内容本身的行文风格,通过上下文无关文法得到句子的句法结构,或者 RST 修辞依赖理论等其他 NLP 深度模型去捕捉句子文法信息。

根据捕捉文本信息描述种类的不同,作者分为两类,检测欺骗程度,检测描述的主观客观程度(越客观公正的可能性越大)两种。震惊体的标题党就属于这类。

其中,假新闻可能用到的特征,包括普通特征和聚合特征两大类。普通特征就是页面,文本,图片,标题等单纯的特征 embedding,聚合特征就是把各个普通特征进行组合和有监督的训练成一个一个子模型问题。然后这些子模型的输出又可以作为聚合特征用在假新闻领域。

下图就是我们使用的主要特征集:

3264ba96394de9e49cfefaa366850f5e.png

其他:基于社交网络建模

分为两种,基于立场和基于传播行为的。

前者主要是基于用户对内容的操作(评论,点赞 ,举报等等)构建矩阵或者图模型。

而基于传播行为对对象建模,类似 PageRank 的行为传递。下面介绍的 News Verification by Exploiting Conflicting Social Viewpoints in Microblogs 一文就是这种类型 。

1. 对虚假新闻的传播游走轨迹跟踪, 以及通过图模型和演化模型中针对特定假新闻的进一步调查;

2. 识别虚假新闻的关键传播者,对于减轻社交媒体的传播范围至关重要。

假新闻研究方向

[Kai Shu, 2017] 文章总结了假新闻的几个主要的研究方向。

数据方面的研究工作:现在还没有标准的测评数据集,这是需要去建立的。再有就是通过传播特性去更早的检测假新闻。另外一个就是从心理学角度去做假新闻的意图检测,这个角度过去往往被忽略。

模型特征方面的研究工作:往往会使用用户的画像特征,内容特征(NLP、CV)结合深度学习,还有传播网络特征,比如用户和内容之间的关系构造出来的网络特征,网络本身的 embedding 表现。

模型方面的研究工作:第一个就是特征之间的组合。第二是预测目标的变化。第三不论是从内容源,还是文章风格,或者内容的反馈(评论,等互动行为)都有各自的限制,组合这些模型。最后就是空间变换,把特征变换到另外的 latent 语义空间尝试解决。

数据集

1. FakeNewsNet

BuzzFeed 和 PolitiFact 两个平台的数据集,包括新闻内容本身(作者,标题,正文,图片视频)和社交上下文内容(用户画像,收听,关注等)。

数据集可获取方式:https://github.com/KaiDMML/FakeNewsNet

代表论文

d91770d3fad9ba2efd5392cb22e9be82.png

2. LIAR

该数据集也是来自 PolitiFact,包括内容本身和内容的基础属性数据(来源,正文)。

数据集可获取方式:http://www.cs.ucsb.edu/~william/data/liar_dataset.zip

代表论文

Attention 机制是一种用于序列到序列模型的技术,它使得模型可以关注输入序列中与当前输出相关的部分。Bahdanau 和 Luong 是两种常用的 Attention 机制,它们的区别主要在于计算注意力分配时所使用的方法。 Bahdanau Attention Bahdanau Attention 是一种基于内容的注意力机制,它将注意力分配看作是一种给定上下文向量和一组查询向量的加权求和。在 Bahdanau Attention 中,上下文向量是由编码器输出的所有隐藏状态的加权和,而查询向量则是由解码器当前隐藏状态计算得出的。 具体来说,Bahdanau Attention 的计算过程如下: 1. 对于解码器当前隐藏状态 $s_t$,计算一组查询向量 $q_t$。 2. 对于编码器的所有隐藏状态 $h_i$,计算其对应的注意力得分 $e_{ti}$。 3. 将注意力得分 $e_{ti}$ 通过 softmax 函数转化为注意力权重 $a_{ti}$。 4. 将编码器所有隐藏状态 $h_i$ 与注意力权重 $a_{ti}$ 做加权求和,得到当前时间步的上下文向量 $c_t$。 Luong Attention Luong Attention 是一种基于位置的注意力机制,它将注意力分配看作是一种根据解码器当前隐藏状态和编码器所有隐藏状态之间的相似度计算得出的权重分布。在 Luong Attention 中,有三种不同的计算方式:点乘注意力、拼接注意力和缩放点积注意力。 具体来说,Luong Attention 的计算过程如下: 1. 对于解码器当前隐藏状态 $s_t$,计算一组查询向量 $q_t$。 2. 对于编码器的所有隐藏状态 $h_i$,计算其对应的特征向量 $z_i$。 3. 根据解码器当前隐藏状态 $s_t$ 和编码器的所有特征向量 $z_i$,计算相似度得分 $e_{ti}$。 4. 根据相似度得分 $e_{ti}$,使用 softmax 函数计算注意力权重 $a_{ti}$。 5. 将编码器所有隐藏状态 $h_i$ 与注意力权重 $a_{ti}$ 做加权求和,得到当前时间步的上下文向量 $c_t$。 简而言之,Bahdanau Attention 是基于内容的注意力机制,而 Luong Attention 则是基于位置的注意力机制,它们在计算注意力分配时所使用的方法有所不同。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值