DetectGPT VS ChatGPT：AI反击战？

最新推荐文章于 2024-12-09 14:48:54 发布

馨歌

最新推荐文章于 2024-12-09 14:48:54 发布

阅读量5.1k

点赞数 2

分类专栏： NLP 文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/PX2012007/article/details/129004868

版权

NLP 专栏收录该内容

10 篇文章

订阅专栏

1.背景

随着 ChatGPT 的持续火爆，现在无论哪个行业，几乎是人尽皆知。同时，利用 ChatGPT 进行造假作弊的情况也是层出不穷，尤其是在教育和传媒行业。在美国的一项千人调查中，有89%的学生表示在家庭作业中使用了 ChatGPT，不亦乐乎😂，并且斯坦福等大学中有部分学生也准备在期末考试中使用 ChatGPT。ChatGPT 能够改编充斥阴谋论和误导性叙述的问题，产生大量令人信服却无信源的内容，或成为传播网络谣言的工具……鉴于以上种种，OpenAI 官方紧急发布了打假工具(判断是否AI生成分为5个等级：极不可能、不太可能、不清楚、可能、非常可能)，原以为是造矛又造盾，强强对决，奈何鉴别为非常可能的准确率只有26%，还有9%的概率把人写的文本当成AI写的，整体表现和蒙眼猜差不多😂（人的肉眼分辨也仅仅是略微高出瞎蒙的结果）。

斯坦福大学看不下去了，为了打击高等教育中 LLM（大型语言模型）生成文本，提出了零样本的 DetectGPT 方法，率先打响高校 AI 反击战。

代码链接： DetectGPT

2.DetectGPT

机器生成文本的检测本质还是一个二分类问题，训练一个以此为目标的深度学习模型并不困难，但是这样的模型过度依赖训练数据，而最常用的零样本评估方法是计算生成文本的每个 token 对数概率和阈值的平均值，这种方法忽略了候选文本周围的包含文本来源信息的概率分布。

在本篇论文中，作者首先提出了一个简单的假设：生成文本的轻微改写相较于原始文本倾向于有较低的对数概率，而被轻微改写的手写文本相较于原文本，其对数概率可高可低。意思也就是，模型生成文本往往位于对数概率函数负曲率的区域（局部最大值），如下图：

设计实验验证以上假设：

为了判断候选段落 $x$ 是否由 LLM $p$ （如 GPT-3）生成，利用通用的预训练模型（如 T5）对 $x$ 进行较小的扰动，生成扰动样本 $\widetilde{x}_1$ ~ $\widetilde{x}_N$ ，然后比较 $x$ 和每个扰动样本 $\widetilde{x}_i$ 在 $p$ 下的对数概率，如果平均对数比率较高，则可能来自源模型 GPT-3。

实验伪代码：

作者通过经验验证了假设，并且发现其适用于各种 LLM。DetectGPT 的效果也是杠杠的！在检测机器生成文本方面比现有的零样本方法更准确，在检测机器生成的新闻文章时，相较于零样本多源模型的最强基线，AUROC提高了 0.1+。

3.总结

简单高效的 DetectGPT 理解起来还是比较容易的，作者也打算将这一方法用于 LLM 生成的音频、视频和图像的检测工作中。当然它也有一些缺点：①模型改写的情况会影响曲率估计的质量；②相比于其他检测方法需要更多的计算量等，不过看效果还是比较靠谱。官方鉴别器虽不咋滴，但说明 OpenAI 目前在努力表现出踩刹车的样子，有消息称其正考虑在生成文本中加入隐藏的“水印”，或许从根源解决才是终极大法😄😄😄。