Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text
http://arxiv.org/abs/2401.12070
ICML2024
可以认为这篇文章就是研究如何判断一个文段是不是AIGC。
核心:引入了交叉困惑度,同时使用两个模型来获取困惑度。其中一个模型直接对目标文本计算困惑度,第二个模型对第一个模型计算困惑度。
1.研究背景和问题:
(1)实际应用场景和问题提出
随着大型语言模型(如 GPT-4、LLaMA、Falcon 等)的快速发展,生成式AI模型被广泛应用于内容创作、自动写作、对话系统等多个领域。然而,生成模型带来了诸多问题,尤其是文本的真实性和来源的验证。
- 学术不诚信:学生可能借助生成模型撰写作业或论文,影响学术公平。
- 虚假信息传播:生成模型可能被用于制造虚假新闻或误导性评论。
- 内容滥用: 生成的恶意文本可能用于网络攻击、垃圾信息和仇恨言论的传播。
(2)问题的研究意义
生成文本检测的研究具有重要的社会和应用意义,主要体现在:
- 防止学术剽窃:防止学生通过生成模型提交机器写作的论文。
- 打击虚假信息:提高平台内容审核的准确性,避免虚假内容的传播。
- 提升文本生成透明度:对生成模型的输出进行审查,确保其在合规和道德框架内使用。
(3)问题的研究现状
现有的生成文本检测方法大致可以分为两类:
- 基于困惑度的方法:直接计算文本在语言模型中的困惑度,机器生成文本通常困惑度较低。