新闻文本数据集_一文看懂虚假新闻检测（附数据集 & 论文推荐）

最新推荐文章于 2024-07-30 11:47:58 发布

weixin_39859055

最新推荐文章于 2024-07-30 11:47:58 发布

阅读量2.9k

点赞数

文章标签：新闻文本数据集

本文链接：https://blog.csdn.net/weixin_39859055/article/details/111582467

版权

本文深入探讨了假新闻检测的模型构建、数据集和特征挖掘。介绍了基于内容和社交网络的建模方法，以及相关数据集如FakeNewsNet、LIAR等。此外，还分析了数据挖掘在识别假新闻特征中的应用，并引用了几篇具有代表性的学术论文，如‘News Verification by Exploiting Conflicting Social Viewpoints in Microblogs’。文章最后提到了假新闻挑战赛和相关资源。

摘要由CSDN通过智能技术生成

作者丨孙子荀

单位丨腾讯科技高级研究员

研究方向丨多模态内容质量

本人过去几年一直从事内容质量方面的算法工作，近期出于兴趣对假新闻这个问题做了一些调研，简单总结一下提供读者参考。在某种程度上假新闻的是一个微观领域问题，它和谣言分类，事实判断，标题党检测，垃圾内容挖掘等都比较类似，在宏观上说都属于内容质量的领域，所以很多方法其实是通用的框架。

本文主要简单介绍了我们的做法和几篇具有典型代表的假新闻论文，从不同的方法路径去了解多模态、网络游走、特征挖掘等手段在假新闻领域上的一些实践。

模型构建

根据 [Kai Shu, 2017] 的划分，模型在这里主要有两类：1）基于内容的建模；2）基于社交网络的模型。

1. 基于内容建模

有 1.1 面向知识和事实库的和 1.2 面向行文风格的。

1.1 面向知识库

事实检查系统有点类似谣言鉴别系统，对文章描述的观点和客观事物进行校真，类似 QA 系统是一个比较复杂的 NLP 领域，包括知识表示、知识推理。在知识库数据集上有集中划分方式：

1. 专家系统：各个领域的专家构建的知识库，显然这种方式的效率和扩展性都非常差。不过如果是垂直类目（生物，历史）那或许可以在某个客观事实比较多的类目下进行尝试；

2. 集体智慧：用户集体知识的反馈来构建的一套知识库。

1 和 2 有了之后其实可以通过类似检索的方法，来对新的内容进行相似度判断，从而充分利用积累的历史内容提供出来的特征指示。

3. 基于算法分类：使用知识图谱或者事理图谱来对内容进行真实性判断，当前主要的开放知识图谱有 DB-pedia 和 Google Relation Extraction 数据集。

这个领域的问题，类似 NLP 的 QA 问题，有兴趣的同学可以参考 [Yuyu Zhang, 2017] 的 VRN变分推理网络。

作者通过概率模型来识别问句中的实体，问答时在 KB 上做逻辑推理，且推理规则将被学习出来。即可用于做事实判断。

当前这个方向技术落地成本高，难度较大，效果也不一定理想。

1.2 面向内容风格

用文章内容本身的行文风格，通过上下文无关文法得到句子的句法结构，或者 RST 修辞依赖理论等其他 NLP 深度模型去捕捉句子文法信息。

根据捕捉文本信息描述种类的不同，作者分为两类，检测欺骗程度，检测描述的主观客观程度（越客观公正的可能性越大）两种。震惊体的标题党就属于这类。

其中，假新闻可能用到的特征，包括普通特征和聚合特征两大类。普通特征就是页面，文本，图片，标题等单纯的特征 embedding，聚合特征就是把各个普通特征进行组合和有监督的训练成一个一个子模型问题。然后这些子模型的输出又可以作为聚合特征用在假新闻领域。

下图就是我们使用的主要特征集：

其他：基于社交网络建模

分为两种，基于立场和基于传播行为的。

前者主要是基于用户对内容的操作（评论，点赞，举报等等）构建矩阵或者图模型。

而基于传播行为对对象建模，类似 PageRank 的行为传递。下面介绍的 News Verification by Exploiting Conflicting Social Viewpoints in Microblogs 一文就是这种类型。

1. 对虚假新闻的传播游走轨迹跟踪，以及通过图模型和演化模型中针对特定假新闻的进一步调查；

2. 识别虚假新闻的关键传播者，对于减轻社交媒体的传播范围至关重要。

假新闻研究方向

[Kai Shu, 2017] 文章总结了假新闻的几个主要的研究方向。

数据方面的研究工作：现在还没有标准的测评数据集，这是需要去建立的。再有就是通过传播特性去更早的检测假新闻。另外一个就是从心理学角度去做假新闻的意图检测，这个角度过去往往被忽略。

模型特征方面的研究工作：往往会使用用户的画像特征，内容特征（NLP、CV）结合深度学习，还有传播网络特征，比如用户和内容之间的关系构造出来的网络特征，网络本身的 embedding 表现。

模型方面的研究工作：第一个就是特征之间的组合。第二是预测目标的变化。第三不论是从内容源，还是文章风格，或者内容的反馈（评论，等互动行为）都有各自的限制，组合这些模型。最后就是空间变换，把特征变换到另外的 latent 语义空间尝试解决。

数据集

1. FakeNewsNet

BuzzFeed 和 PolitiFact 两个平台的数据集，包括新闻内容本身（作者，标题，正文，图片视频）和社交上下文内容（用户画像，收听，关注等）。

数据集可获取方式：https://github.com/KaiDMML/FakeNewsNet

代表论文

2. LIAR

该数据集也是来自 PolitiFact，包括内容本身和内容的基础属性数据（来源，正文）。

数据集可获取方式：http://www.cs.ucsb.edu/~william/data/liar_dataset.zip

代表论文

最低0.47元/天解锁文章

weixin_39859055

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

新闻文本数据集_一文看懂虚假新闻检测（附数据集 &amp; 论文推荐）

模型构建

数据集

新闻文本数据集_一文看懂虚假新闻检测（附数据集 & 论文推荐）