DetectGPT VS ChatGPT:AI反击战?

文章介绍了针对ChatGPT在教育和传媒等领域引发的造假问题,OpenAI推出的打假工具效率有限。斯坦福大学提出DetectGPT方法,通过分析对数概率曲线的曲率来更准确地检测机器生成文本,尤其在检测新闻文章时性能提升。DetectGPT也计划扩展到音频、视频和图像的检测,尽管存在一些局限性,但为解决LLM造假提供了新思路。
摘要由CSDN通过智能技术生成

1.背景

随着 ChatGPT 的持续火爆,现在无论哪个行业,几乎是人尽皆知。同时,利用 ChatGPT 进行造假作弊的情况也是层出不穷,尤其是在教育和传媒行业。在美国的一项千人调查中,有89%的学生表示在家庭作业中使用了 ChatGPT,不亦乐乎😂,并且斯坦福等大学中有部分学生也准备在期末考试中使用 ChatGPT。ChatGPT 能够改编充斥阴谋论和误导性叙述的问题,产生大量令人信服却无信源的内容,或成为传播网络谣言的工具……鉴于以上种种,OpenAI 官方紧急发布了打假工具(判断是否AI生成分为5个等级:极不可能、不太可能、不清楚、可能、非常可能)原以为是造矛又造盾,强强对决,奈何鉴别为非常可能的准确率只有26%,还有9%的概率把人写的文本当成AI写的,整体表现和蒙眼猜差不多😂(人的肉眼分辨也仅仅是略微高出瞎蒙的结果)。

斯坦福大学看不下去了,为了打击高等教育中 LLM(大型语言模型)生成文本,提出了零样本的 DetectGPT 方法,率先打响高校 AI 反击战。

代码链接: DetectGPT

2.DetectGPT

机器生成文本的检测本质还是一个二分类问题,训练一个以此为目标的深度学习模型并不困难,但是这样的模型过度依赖训练数据,而最常用的零样本评估方法是计算生成文本的每个 token 对数概率和阈值的平均值,这种方法忽略了候选文本周围的包含文本来源信息的概率分布。

  • 在本篇论文中,作者首先提出了一个简单的假设:生成文本的轻微改写相较于原始文本倾向于有较低的对数概率,而被轻微改写的手写文本相较于原文本,其对数概率可高可低。意思也就是,模型生成文本往往位于对数概率函数负曲率的区域(局部最大值),如下图:

  • 设计实验验证以上假设:

为了判断候选段落 x 是否由 LLM p(如 GPT-3)生成,利用通用的预训练模型(如 T5)对 x 进行较小的扰动,生成扰动样本 \widetilde{x}_1 ~ \widetilde{x}_N,然后比较 x 和每个扰动样本 \widetilde{x}_i 在 p 下的对数概率,如果平均对数比率较高,则可能来自源模型 GPT-3。

实验伪代码:

  • 作者通过经验验证了假设,并且发现其适用于各种 LLM。DetectGPT 的效果也是杠杠的!在检测机器生成文本方面比现有的零样本方法更准确,在检测机器生成的新闻文章时,相较于零样本多源模型的最强基线,AUROC提高了 0.1+。

3.总结

简单高效的 DetectGPT 理解起来还是比较容易的,作者也打算将这一方法用于 LLM 生成的音频、视频和图像的检测工作中。当然它也有一些缺点:①模型改写的情况会影响曲率估计的质量;②相比于其他检测方法需要更多的计算量等,不过看效果还是比较靠谱。官方鉴别器虽不咋滴,但说明 OpenAI 目前在努力表现出踩刹车的样子,有消息称其正考虑在生成文本中加入隐藏的“水印”,或许从根源解决才是终极大法😄😄😄。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值