使用NLP检测和对抗AI生成的假新闻

本文探讨了神经假新闻的定义、如何滥用大语言模型生成假新闻,以及利用NLP方法检测神经假新闻。文章介绍了GLTR工具和Grover模型在检测假新闻中的应用,并讨论了现有技术的局限性和未来研究方向。GLTR通过统计分析和可视化检测机器生成文本,而Grover模型能识别多种模型生成的假新闻。尽管现有技术存在局限,但开放数据集和模型的发布将推动未来研究的发展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者|MOHD SANAD ZAKI RIZVI 编译|VK 来源|Analytics Vidhya

概述

  • 由AI生成的假新闻(神经假新闻)对于我们的社会可能是一个巨大的问题
  • 本文讨论了不同的自然语言处理方法,以开发出对神经假新闻的强大防御,包括使用GPT-2检测器模型和Grover(AllenNLP)
  • 每位数据科学专业人员都应了解什么是神经假新闻以及如何应对它

介绍

假新闻是当今社会关注的主要问题。它与数据驱动时代的兴起并驾齐驱,这并非巧合!

假新闻是如此广泛,以至于世界领先的字典都试图以自己的方式与之抗争。

  • Dictionary.com将misinformation'列为2018年度最佳词汇
  • 牛津词典几年前选择“post-truth”作为年度最佳词汇

那么机器学习在其中扮演了什么角色呢?我相信你一定听说过一种机器学习技术,它甚至可以生成模仿名人的假视频。类似地,自然语言处理(NLP)技术也被用来生成假文章,这一概念被称为“神经假新闻”。

过去几年,我一直在自然语言处理(NLP)领域工作,虽然我喜欢取得突破性进展的速度,但我也对这些NLP框架被用来创建和传播虚假信息的方式深感担忧。

高级的预训练NLP模型,如BERT,GPT-2,XLNet等,很容易被任何人下载。这就加大了他们被利用来传播宣传和社会混乱的风险。

在这篇文章中,我将对神经假新闻做一个全面的研究——从定义它是什么,到理解识别这种错误信息的某些方法。我们还将详细了解这些最先进的语言模型本身的内部工作原理。

目录

  1. 什么是神经假新闻?

  2. 大型语言模型如何被滥用来产生神经假新闻?

  3. 如何检测神经假新闻?

    1. 事实核查

    2. 使用GLTR(HarvardNLP)进行统计分析

    3. 利用模型检测神经假新闻

      • GPT-2探测器
      • Grover 模型
  4. 当前检测技术的局限性及未来研究方向

什么是神经假新闻?

我相信你最近听说过“假新闻”这个词。它几乎在每个社交媒体平台上都广泛使用。近年来,它已成为社会和政治威胁的代名词。但什么是假新闻?

以下是维基百科的定义:

“假新闻(又称垃圾新闻、假新闻或骗局新闻)是指通过传统新闻媒体(印刷和广播)或在线社交媒体故意造谣传播的新闻形式。”

假新闻是指任何事实上错误的、歪曲事实的、病毒性传播(或可能传播给目标受众)的新闻。它既可以通过常规新闻媒体传播,也可以在Facebook、Twitter、WhatsApp等社交媒体平台上传播。

假新闻,如“登月是假的”难以区分的原因是,它仔细模仿了真实新闻通常遵循的“风格”和“模式”。这就是为什么未经训练的人眼很难分辨。

另外,有趣的是,假新闻已经存在了很长很长时间(实际上,贯穿我们的历史)。

神经假新闻

神经假新闻是利用神经网络模型生成的任何假新闻。或者更正式地定义它:

神经假新闻是一种有针对性的宣传,它紧密模仿由神经网络生成的真实新闻的风格。

下面是OpenAI的GPT-2模型生成的神经假新闻的一个例子:

“system prompt”是一个人给模型的输入,“model completion”是GPT-2模型生成的文本。

你凭直觉猜到后一部分是机器写的吗?请注意,该模型能够多么令人难以置信地将提示进行扩展,形成一个完整故事,这看起来乍一看令人信服。

现在,如果我告诉你GPT-2模型可以免费供任何人下载和运行呢?这正是研究界关注的问题,也是我决定写这篇文章的原因。

大型语言模型如何被滥用来产生神经假新闻?

语言建模是一种NLP技术,模型通过从句子本身理解上下文来学习预测句子中的下一个单词或缺失的单词。以谷歌搜索为例:

这是一个正在运行的语言模型的例子。通过让模型预测一个句子中的下一个单词或一个丢失的单词,我们让模型学习语言本身的复杂性。

这个模型能够理解语法是如何工作的,不同的写作风格,等等。这就是为什么这个模型能够生成一段对未经训练的人来说可信的文本。当同样的模式被用来产生有针对性的宣传来迷惑人们时,问题就出现了。

下面是一些非常强大的最先进的语言模型,它们非常擅长生成文本。

1.谷歌的BERT

BERT是一个由Google设计的语言模型,它打破了最先进的记录。该框架是最近各种研究实验室和公司大力训练和研究大型语言模型的原因。

BERT和Facebook、XLM、XLNet、DistilBERT等公司的RoBERTa在文本生成方面表现非常出色。

2.OpenAI的GPT-2模型

来自OpenAI的GPT、GPT-2和GPT-Large等一系列语言模型,因其文本生成能力而在媒体上引起轰动。这些是我们绝对应该知道的一些语言模型。

3.Grover

Grover是AllenNLP提出的一个有趣的新语言模型,它不仅能够生成文本,而且能够识别其他模型生成的伪文本。

我们将在文章的后面进一步了解Grover。

如何检测神经假新闻?

我们怎样才能发现或找出一条新闻是假的?目前,处理神经假新闻的方法主要有三种,都取得了很好的效果。

I.事实核查

检查一条在网上传播的新闻是假的还是真的,最基本的方式是什么?我们可以简单地谷歌它,参考值得信赖的新闻网站,并事实检查他们是否有相同或类似的故事。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值