2023.3.26第20次周报_automatic detection of machine generated text: a c-CSDN博客

本文链接：https://blog.csdn.net/qmdx_98/article/details/129757930

摘要

This week, I learned about the pre-training approach in deep learning, starting with pre-training in the field of image processing and extending to pre-training in natural language processing. Then, I learned about language models, as well as the specific uses of statistical language models and neural network language models. Additionally, I read an article on the automatic detection of machine-generated text, and gained an understanding of the problems associated with text generation models and some potential solutions.
本周，我学习了深度学习的预训练思想，从图像领域的预训练引申到自然语言处理领域的预训练，接着学习了什么是语言模型以及统计语言模型和神经网络语言模型的具体用法；另外，我阅读了一篇有关机器生成的文本的自动检测，了解到有关文本生成模型存在的问题以及一些解决方法。

文献阅读

1、题目

Automatic Detection of Machine Generated Text: A Critical Survey
Comments: The 28th International Conference on Computational Linguistics (COLING), 2020
Subjects: Computation and Language (cs.CL); Artificial

2、摘要

文本生成模型（TGMs）擅长于生成与人类语言风格相当匹配的文本，这样的TGM可能会被对手滥用，例如，自动生成假新闻和假产品评论，看起来很真实，可以骗过人类。能够将TGM生成的文本与人类书写的文本区分开来的检测器在减轻TGM的这种滥用方面发挥着重要作用。最近，自然语言处理（NLP）和机器学习（ML）社区都有大量的工作，以建立准确的英语检测器。尽管这个问题很重要，但目前还没有任何工作对这些快速增长的文献进行调查，并向新人介绍重要的研究挑战。

3、介绍

3.1 存在问题

目前最先进的文本生成模型（TGMs）擅长生成接近人类语言风格的文本，特别是在语法、流畅性、连贯性和现实世界知识的使用方面。TGM在各种应用中都很有用，包括故事生成、对话式回应生成、代码自动完成和放射学报告生成。然而，TGM也可能被滥用于假新闻的生成，假产品评论的生成，以及垃圾邮件/网络钓鱼。因此，建立能够最大限度地减少滥用TGM带来的威胁的工具非常重要。

3.2 解决办法

常用的方法是将区分TGM生成的文本和人类书写的文本的问题制定为一个分类任务，当TGM生成的文本的意图是滥用时，该检测器可用于自动从社交媒体、电子商务、电子邮件客户端和政府论坛等在线平台删除机器生成的文本。
理想的检测器应该是：

准确：根据应用TGM的在线平台（电子邮件客户端、社交媒体），在假阳性和假阴性之间进行良好的权衡；
数据高效：需要攻击者使用的TGM中尽可能少的例子；
可泛化：检测攻击者使用的TGM的不同建模选择所产生的文本，如模型架构、TGM训练数据、TGM调节提示长度、模型大小和文本解码方法；
可解释的：检测器的决定需要是人类可以理解的；
稳健的：检测器可以处理对抗性例子。

3.3 主要贡献

提供了关于从人类书写的文本中检测机器生成的文本这一重要的、蓬勃发展的领域的第一次调查。
对当前最先进的检测器进行了错误分析，并以机器生成的文本为指导和说明，以阐明现有检测工作的局限性。
提出了一套丰富多样的研究方向，以指导这一令人兴奋的领域的未来工作。

4、背景

4.1 训练TGM

TGM通常是一个神经语言模型（NLM），它被训练用来模拟在文本序列中给定的一个标记的概率，即 $p_θ(x_t |x_1, ..., x_i, ..., x_{t-1})$ ，标记来自词汇表， $x_i∈V$ 。如果 $(x_1, \ldots, x_{|x|})$ 代表文本序列， $p_θ$ 通常采取 $p_θ(x) = \prod_{t=1}^{|x|} p_θ(x_t | x_1,\ldots, x_{t-1})$ 的形式。如果 $p_∗(x)$ 表示参考分布， $D$ 表示 $p_∗$ 的有限文本序列集，TGM通过最小化以下目标函数来估计参数 $θ$ ：
$L(p_θ, D) = - \sum^{|D|}_{j=1}\sum^{x^{(j)}}_{t=1}log p_θ(x^{(j)}_t | x^{(j)}_1,\ldots, x^{(j)}_i ,\ldots, x^{(j)}_{t-1})\quad\quad\quad\quad\quad(1)$

4.2 从TGM中生成文本

给定一个子序列（前缀）， $x_{1:k}∼p_∗$ ，从TGM中生成文本的任务是使用 $p_θ$ 有条件地解码一个延续， $\hat{x}_{k+1}:N∼p_θ(.|x_{1:k})$ ，使产生的完成度 $（x_1, \ldots, x_k, \hat{x}_{k+1}, \ldots,\hat{x}_{N}）$ 类似于 $p_∗$ 的样本。在新闻文章生成任务中，前缀可以是标题，续篇可以是新闻文章的正文；在故事生成任务中，前缀可以是故事的开头，续篇可以是故事的其余部分。
由于计算最佳续篇 $（\hat{x}_{k+1:N}）$ 的时间复杂度为 $O((N-k)^{|V|})$ ，因此利用近似的确定性或随机性解码方法来生成续篇。

确定性的方法： 在确定性方法中，延续性完全由TGM参数和前缀决定，最常用方法：
贪婪搜索： 工作原理是【在每个时间步骤选择最高概率的标记】， $x_t = arg\ max p_θ(x_t |x_1, \ldots, x_{t-1})$ ，时间复杂度为 $O ((N - k) ∣ V ∣)$ 。
波束搜索： 它以高概率存储前b的候选人。根据这些候选者，它预测下一个时间步的代币，并再次存储前b的候选者，时间复杂度为 $O ((N - k) b ∣ V ∣)$ 。
随机方法： 随机解码方法的工作原理是【在每个时间步骤从一个依赖模型的分布中取样】， $x_t ∼ q(x_t |x_1, \ldots, x_{t-1}, p_θ)$ 。两个最有效的方法：
top-k采样器 将采样限制在k个最有可能的标记上，使用一个恒定的k值，这在不同的语境中可能是次优的。例如，通用语境（如预测名词）可能需要较大的k值，而其他语境（如预测介词）可能需要较小的k值，以便只考虑有用的候选标记。
top-p（或核）采样器 通过将取样限制在总质量超过阈值 $p \in [0, 1]$ 的最小标记集，从而克服了只考虑固定数量的标记的负担，所考虑的候选标记的数量根据上下文动态变化，得到的文本合理自然，重复性较少。

4.3 TGMs的社会影响

偏见： TGM可以捕捉并放大训练数据中存在的社会偏见，如性别偏见（偏爱男性而不是女性），种族偏见（偏爱白人而不是黑人），以及宗教偏见（偏爱基督徒而不是穆斯林）。
有益的用法： TGMs被用来创建特定的任务系统，如问题回答、阅读理解、自然语言推理和机器翻译。TGM还可以用来生成与人类语言风格近似的文本，这有利于故事生成、对话式回应生成、代码自动完成和放射学报告生成等应用。
恶意使用： TGMs可以被（甚至是低技能的）对手用于恶意目的，如假新闻的生成，假产品评论的生成，以及垃圾邮件/网络钓鱼。

Alt

表1：可作为威胁模型的TGM的特征总结。最后一栏对应的是原论文中讨论的威胁。

5、可控的生成

可控的TGM拥有控制生成方面的能力，如文章的主题和情感。有两种方法来设计可控的TGM：
用控制令牌进行训练： 利用文章的元信息，如作者、创作日期、源域等，并在训练TGM之前，将这些信息作为额外的标记预置到输入序列。
例如，GROVER可以生成难以识别为人类撰写的假新闻的新闻文章。CTRL还允许明确控制控制令牌生成的文本的某些属性（例如，指定要生成的文章主题）。如：指定要生成的文章主题。
使用属性分类器进行控制： 设计可控TGM的第二种也是最近的方法是将预训练的TGM（如GPT-2）与指导文本生成的一个或多个属性分类器（如情感分类器）相结合。这种方法的特性是TGM模型不需要重新训练，从而避免了重新训练的巨大成本。

6、检测器

6.1 从头开始训练的分类器

词袋式分类器： 一个使用逻辑回归模型和tf-idf的简单模型可以区分WebText中的文本和GPT-2生成的文本，这是检测器中最简单的方法之一。本研究测试了不同数量的参数（117M、345M、762M和1542M）和采样技术（纯采样、top-k采样和top-p采样）的检测精度的变化，发现参数数量越多，检测难度越大，核采样比顶k采样更难检测（这可能是由于top-k抽样产生的词比较常见，词频的分布与人类有很大的不同），另外还发现，GPT-2的微调使其更难检测。
检测机器配置： 本研究不是将人类书写的文本和自动生成的句子划分为二进制，而是确定是什么模型生成的文本（如解码方法、模型中的参数数量等），结果表明，模型构成是可预测的（与随机情况相比），概率很高(这项任务也被证明不像分辨人类句子和自动生成的句子那样困难），这表明，自动生成的句子对模型构成有很强的依赖性。
此外，单词的顺序在分类中并没有发挥太大的作用，使用bag-of-words（表示一个单词在句子中的出现次数）的检测器和复杂的检测器（如Transformer）一样表现良好。
另一项研究表明，经典的机器学习模型和简单的神经网络在以下三种环境下有一定的作用：
(1) 对两篇给定的文章是否由同一TGM生成进行分类；
(2) 对给定的文章是由人类还是TGM撰写进行分类（原始检测问题）；
(3) 识别生成给定文章的TGM。
但是，对于（3），作者根据几个TGM（CTRL、GPT-1、GPT-2、GROVER、XLLM、XLNet、PPLM和FAIR）进行验证，发现GPT-2的原始文本很难被检测出来。

6.2 零点分类器

在零次分类设置中，采用预训练的TGM（例如GPT-2，GROVER）来检测来自自身或类似模型的代数。该检测器不需要监督检测的例子来进一步训练（即微调）。
总对数概率： 作为一个简单的例子，作者使用TGM来评估对数似然。它将给定文本的对数可能性与人类编写的文本和TGM生成的文本的对数可能性的平均值进行比较，并根据哪个更接近进行预测。与上述简单的逻辑回归模型相比，这种分类器的性能很差。
巨大的语言模型测试室（GLTR）工具： 一种被称为GLTR工具的技术利用GPT-2生成的文本和人类编写的文本的分布差异来进行分类。在使用TGM生成文本时，根据top-k采样、核采样等方式依次生成下一时间步的令牌。现在，给定一个文本，使用一些TGM根据文本的前k个token来预测下一个token的概率分布。如果文本是一个TGM生成的句子，我们希望预测的下一个标记的分布与给定文本的实际下一个标记更相关。此外，由顶k和核抽样生成的文本往往具有较低的异常词频率。
基于这些思想，根据词的出现率、词在预测分布中的等级和熵进行分类。画面如下图所示：
在这里插入图片描述

6.3 微调NLM

在这个设置中，预训练的语言模型（例如BERT）被微调，以检测由其自身或类似模型生成的文本。与零点分类设置不同，该检测器确实需要有监督的检测实例来进一步训练。
GROVER检测器： 在本研究中，作者在GROVER模型的基础上增加了一个线性分类器，即TGM，并对其进行了微调，以进行自动句子检测。在实验中发现，当用于生成文本的模型和用于检测自动生成句子的模型相同时，检测精度较好。不过，有可能实验验证的模型刚好呈现出这样的趋势。
RoBERTa检测器： 在这项研究中，我们对RoBERTa进行了微调，并成功识别了由GPT-2生成的网页，参数数量最多，准确率约为95%，展示了最先进的性能。
当对核心采样产生的例子进行训练时，其他解码方法（top-k和无限制采样）也是有效的。研究还表明，在大型GPT-2上训练的检测器能够充分检测小型GPT-2生成的句子。(但是，在相反的情况下，大GPT-2生成的句子的检测精度会降低)。
此外，与上述GROVER研究不同的是，RoBERTa模型微调时比GPT-2模型微调时更准确（这可归因于RoBERTa的双向性）。
另一项研究显示，在对人类撰写的和自动生成的推文进行分类时，表现出最先进的性能，远远超过经典的机器学习模型、神经网络（RNNs和CNNs）等。虽然RoBERTa的预训练并不包括Twitter数据，但它展示了RoBERTa在这种预训练中没有看到的数据上表现良好的潜力。

6.4 人机协作

除了建立一个统计模型来检测在线虚假信息外，人们还可以建立一个可以利用人类视觉解读技能和常识性知识的系统。
人和机器检测器的差异： 通过研究人类和自动检测器识别TGM生成的文本的能力差异。自动检测器明显优于人类评分者，但对由未见过的解码方法产生的文本的概括性较差。
支持未经训练的人类： GLTR工具可以通过可视化文本的属性来帮助人类，如意外和断章取义的单词。GLTR的主要优点是，它可以促进未经训练的人类准确地检测合成文本（从54%到72%的准确性）。
真实或虚假文本（RoFT）工具： RoFT工具侧重于评估人类对TGM生成的文本的检测，要求人类检测文本从人类书写的文本过渡到机器生成的文本时的句子边界。

7、最先进探测器的挑战

作者描述了使用RoBERTa模型的最先进探测器的挑战，研究了由GPT-2生成的人类撰写的亚马逊产品评论和文本的检测任务，通过随机调查100个检测器未能正确判断的假阳性案例（即当自动生成的文本被确定为人类所写时），其中包括以下几种：
流利（包括人类难以辨别的罕见的流利事例）、短暂、不属实（如影评中演员的名字不同）、不相关的内容(如乐评中出现与音乐无关的字眼)、包含矛盾（A喜欢B但不喜欢B等）、包括重复（A是伟大的，A也是伟大的等）、包括一些不符合常理的事件、错别字和语法错误、内容不一致。

8、未来研究方向

利用辅助信号
评估文本的真实性
构建可通用的检测器
构建可解释的检测器
构建对对抗性攻击具有鲁棒性的检测器

深度学习

1、预训练

1.1 图像领域的预训练

在介绍首先介绍下卷积神经网络（CNN），CNN 一般用于图片分类任务，并且CNN 由多个层级结构组成，不同层学到的图像特征也不同，越浅的层学到的特征越通用（横竖撇捺），越深的层学到的特征和具体任务的关联性越强（人脸-人脸轮廓、汽车-汽车轮廓），如下图所示：
在这里插入图片描述
当我们有阿猫、阿狗、阿虎的图片各十张，然后需要设计一个深度神经网络，通过该网络把它们三者的图片进行分类，如果仅根据这30张图片设计一个深度神经网络基本是不可能的，因为深度学习训练阶段需要大量数据。虽然30张图片数据量很少，但是可以利用网上大量现有的已做好分类标注的图片（比如 ImageNet 中有 1400 万张图片，并且这些图片都已经做好了分类标注），来实现对这30张图片分类。
在这里插入图片描述
具体做法：

通过 ImageNet 数据集我们训练出一个模型 A
由于CNN 的浅层学到的特征通用性特别强，可以对模型 A 做出一部分改进得到模型 B（两种方法）：
① 冻结： 浅层使用模型 A 的参数，高层参数随机初始化，浅层参数一直不变，利用 30 张图片训练参数
② 微调： 浅层使用模型 A 的参数，高层参数随机初始化，利用 30 张图片训练参数，但是这里浅层参数会随着任务的训练不断发生变化

1.2 预训练的思想

任务 A 对应的模型 A 的参数不再是随机初始化的，而是通过任务 B 进行预先训练得到模型 B，然后利用模型 B 的参数对模型 A 进行初始化，再通过任务 A 的数据对模型 A 进行训练。【注：模型 B 的参数是随机初始化的。】

2、语言模型

语言模型通俗点讲就是计算一个句子的概率，对于语言序列 $w_1,w_2,\ldots,w_n$ ，语言模型就是计算该序列的概率，即 $P(w_1,w_2,\ldots,w_n)$ 。
举例：

假设给定两句话 “判断这个词的磁性” 和 “判断这个词的词性”，语言模型会认为后者更自然，转化成数学语言也就是：P(判断，这个，词，的，词性) $>$ P(判断，这个，词，的，磁性)
假设给定一句话做填空 “判断这个词的____”，则问题就变成了给定前面的词，找出后面的一个词是什么，转化成数学语言就是：P(词性|判断，这个，词，的) $>$ P(磁性|判断，这个，词，的)

通过上述两个实例，得到语言模型具体的描述：
给定一句由 n 个词组成的句子 $W=w_1,w_2,\ldots,w_n$ ，计算这个句子的概率 $P(w_1,w_2,\ldots,w_n)$ ，或者计算根据上文计算下一个词的概率 $P(w_n|w_1,w_2,\ldots,w_{n−1})$ 。

2.1 统计语言模型

基本思想就是计算条件概率
给定一句由 n 个词组成的句子 $W=w_1,w_2,⋯,w_n$ ，计算这个句子的概率 $P(w_1,w_2,⋯,w_n)$
的公式如下（条件概率乘法公式的推广，链式法则）：
$\begin{aligned} P(w_1,w_2,⋯,w_n) &=P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)⋯p(w_n|w_1,w_2,⋯,w_{n−1})\\ &=∏_iP(w_i|w_1,w_2,⋯,w_{i−1}) \end{aligned}$
例如：
“判断这个词的词性” 这句话：
$\begin{aligned} & P(判断，这个，词，的，词性)= \\ &P(判断)P(这个|判断)P(词|判断，这个)\\ &P(的|判断，这个，词)P(词性|判断，这个，词，的)P(判断，这个，词，的，词性) \end{aligned}$
给定的序列为 “判断，这个，词，的” 时，判断下一个词是什么：
$P(w_{next}|判断，这个，词，的)=\frac{ccount(wnext，判断，这个，词，的)}{count(判断，这个，词，的)}$
其中， $w_{next}∈V$ 表示词序列的下一个词，V 是一个具有 $∣ V ∣$ 个词的词典（词集合）。
如果 $∣ V ∣$ 特别大，公式计算将会非常困难，因此引入马尔科夫链概念，其思想：假设 $w_{next}$ 只和它之前的 k 个词有相关性，k=1 时称作一个单元语言模型，k=2 时称为二元语言模型（公式如下）：
$P(w_i|w_{i−1})=\frac{count(w_{i−1},w_i)}{count(w_{i−1})}$
举例：
假设字典 V 中有 “火星” 一词，可以明显发现 “火星” 不可能出现在 “判断这个词的” 后面，因此（火星，判断，这个，词，的）这个组合是不存在的，并且词典中会存在很多类似于 “火星” 这样的词。
进一步，可以发现我们把（火星，判断，这个，词，的）这个组合判断为不存在，是因为 “火星” 不可能出现在 “词的” 后面，公式为：
$P(w_{next}|判断，这个，词，的)≈P(w_{next}|词，的)$
上述文本集合是我们自定制的，然而对于绝大多数具有现实意义的文本，会出现数据稀疏的情况，例如训练时未出现，测试时出现了的未登录单词。
由于数据稀疏问题，则会出现概率值为 0 的情况（填空题将无法从词典中选择一个词填入），为了避免 0 值的出现，会使用一种平滑的策略——分子和分母都加入一个非 0 正数，例如可以把公式（4）改为：

$P(w_i|w_{i−1})=\frac{count(w_{i−1},w_i)+1}{count(w_{i−1})+|V|}$

2.2 神经网络语言模型

神经网络语言模型则引入神经网络架构来估计单词的分布，并且通过词向量的距离衡量单词之间的相似度，因此，对于未登录单词，也可以通过相似词进行估计，进而避免出现数据稀疏问题。在这里插入图片描述
上图为神经网络语言模型结构图，它的学习任务是输入某个句中单词 $w_t=bert$ 前的 t−1 个单词，要求网络正确预测单词 “bert”，即最大化：
$P(w_t=bert|w_1,w_2,⋯,w_{t−1};θ)$
上图所示的神经网络语言模型分为三层，接下来我们详细讲解这三层的作用：

神经网络语言模型的第一层，为输入层。首先将前 n−1 个单词用 Onehot 编码（例如：0001000）作为原始单词输入，之后乘以一个随机初始化的矩阵 Q 后获得词向量 $C(w_i)$ ，对这 n−1 个词向量处理后得到输入 x，记作 $x=(C(w_1),C(w_2),⋯,C(w_{t−1}))$
神经网络语言模型的第二层，为隐层，包含 h 个隐变量，H 代表权重矩阵，因此隐层的输出为 $H_x+d$ ，其中 d 为偏置项。并且在此之后使用 tanh 作为激活函数。
神经网络语言模型的第三层，为输出层，一共有 |V| 个输出节点（字典大小），直观上讲，每个输出节点 $y_i$ 是词典中每一个单词概率值。最终得到的计算公式为： $y=softmax(b+W_x+Utanh(d+H_x))$ ，其中 W 是直接从输入层到输出层的权重矩阵，U 是隐层到输出层的参数矩阵。