论文笔记--DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

1. 文章简介

  • 标题:DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature
  • 作者:Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn
  • 日期:2023
  • 期刊:arxiv preprint

2. 文章概括

  文章提出了一种检测语料是否为LLM生成的无监督方法“DetectGPT”,该方法属于一种基于LLM的log-proba进行分析的白盒方法,无需提供额外标注数据、无需重新训练模型,就可以得出结论。
  文章整体框架如下
framework

3 文章重点技术

3.1 Perturbation Discrepancy Gap(PDG) Hypothesis

  DetectGPT基于PDG假设,通俗来说就是:给定一条模型生成的文本段,对该文本进行轻微的扰动(尽量不改变语义且保持文本的通顺度),模型对加了干扰的文本倾向于给出更高的分数,即模型生成的文本呈负曲率曲线(下图左);另一方面,给定一条人类自己写的文本段,对该文本作轻微的扰动之后,模型对干扰后的文本和原文本的打分无明显倾向,即干扰后的文本可能得到更高分或更低分(下图右)。
PDG

3.2 DetectGPT

  基于上述假设,文章给出了一种判定文本是否为LLM生成的方法。给定文本段 x x x,对它进行轻微的扰动 q ( ⋅ ∣ x ) q(\cdot|x) q(x)得到 x ~ i , i = 1 , … , k \tilde{x}_i, i=1, \dots, k x~i,i=1,,k(可以人工修改也可以通过基于掩码的模型自动生成扰动),定义扰动差异(perturbation discrepancy,PD)如下: d ( x , p θ , q ) : = log ⁡ p θ ( x ) − E x ~ ∼ q ( ⋅ ∣ x ) log ⁡ p θ ( x ~ ) d(x, p_{\theta}, q) := \log p_{\theta} (x) - \mathbb{E}_{\tilde{x} \sim q(\cdot|x)} \log p_\theta (\tilde{x}) d(x,pθ,q):=logpθ(x)Ex~q(x)logpθ(x~).基于上述PDG假设,模型对机器生成的文本扰动更敏感,即机器生成的 x x x的PD更大,人类手写的 x x x的PD更小。从而我们可以通过设置PD的阈值来区分文本是否由机器产生。
  具体实验如下:

  • 人类生成的数据:文章采用500条XSum的新闻作为真实的人类生产的数据
  • 模型生成的数据:文章采用上述新闻每条前30个token作为prompt,输入LLM中得到模型生成的文本段。
  • 扰动生成:为了批量生成扰动,文章选择采用基于掩码的T5模型[1]来生成扰动,即随机替换原是文本中的token为[MASK],然后用T5模型预测掩码位置的token。基于该方法对上述人类、机器生成的每条数据分别增加 k = 100 k=100 k=100个扰动。
      按照上述方法,文章得到两组数据的PD分布如下,可以明显看到,人类生成数据的PD值更小,机器生成的PD值更大。二者可通过选择PD阈值 0.1 0.1 0.1进行区分。
    PDdist

4. 文章亮点

  文章提出了DetectGPT,无需重新训练模型,只需提供待检测模型的log-proba,即可预测文本是否为该模型产生。

5. 原文传送门

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

6. References

[1] 论文笔记–Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

  • 25
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值