Ghostbuster：一个准确度高的AI生成文本检测工具

最新推荐文章于 2024-09-07 21:52:58 发布

智云研

最新推荐文章于 2024-09-07 21:52:58 发布

阅读量284

点赞数

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/aizhushou/article/details/134435742

版权

大语言模型引发代写问题，Ghostbuster提出了一种通过评估文档在多个语言模型下生成概率的文本检测方法。Ghostbuster在各种场景下表现出色，尤其对未知模型的检测能力强，有助于识别AI生成的文本，但需注意其在特定条件下的限制和建议的应用场景。

摘要由CSDN通过智能技术生成

大语言模型如ChatGPT，以其卓越的写作能力引发了问题。学生们纷纷利用这些模型代写作业，导致一些学校不得不采取禁止ChatGPT的措施。此外，这些模型还存在生成带有事实错误的文本的倾向，因此谨慎的读者可能想知道，在信任某些新闻文章或其他来源之前，是否有生成式AI工具用于代写。

针对这一问题，研究人员提出了Ghostbuster这一先进的AI生成文本检测方法。该方法通过评估文档中每个标记在多个较弱的语言模型下生成的概率，然后将这些概率的函数作为最终分类器的输入进行组合。Ghostbuster无需知道生成文档所使用的具体模型，也无需知道在该特定模型下生成文档的概率。这使得Ghostbuster特别适用于检测由未知模型或黑盒模型生成的文本，例如流行的商业模型ChatGPT和Claude，其概率不可用。研究人员着重确保Ghostbuster具有良好的泛化性能，因此他们在不同领域（使用新收集的散文、新闻和故事数据集）、语言模型或提示下进行了评估。

为什么选择这种方法呢?

当前许多AI生成文本检测系统对于分类不同类型的文本（例如不同的写作风格、或不同的文本生成模型或提示）往往表现脆弱。简单使用困惑度(perplexity)的模型通常无法捕捉更复杂的特征，在新的写作领域表现尤为糟糕。与此相反，基于大型语言模型(如RoBERTa)的分类器虽然能轻松捕捉复杂特征，但容易对训练数据过拟合且泛化性能差。Ghostbuster的方法在这两者之间取得了平衡，既能够捕捉复杂特征，又不容易过拟合。

最低0.47元/天解锁文章

智云研

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Ghostbuster：一个准确度高的AI生成文本检测工具

希望将Ghostbuster应用于潜在的文本生成的禁区使用的用户应该注意，对于较短的文本、远离Ghostbuster训练领域的领域（例如不同的英语变体）、非英语母语的文本、人工编辑的模型生成或通过提示AI模型修改人工创作的文本，错误更有可能发生。然而，文档长度可能是主要因素，因为Ghostbuster在这些文档上的表现几乎与其在其他长度相似的领域之外文档上的表现一样好（74.7F1），后者的F1在75.6到93.1之间。分类器训练:根据最佳的基于概率的特征和一些额外的手动选择的特征训练了线性分类器。
复制链接

扫一扫