伯克利研究院推出Ghostbuster用于检测由LLM代笔的文本，2024年最新蚂蚁金服Golang架构面试题

最新推荐文章于 2024-08-01 11:26:21 发布

2401_84266125

最新推荐文章于 2024-08-01 11:26:21 发布

阅读量591

点赞数 28

分类专栏： 2024年程序员学习文章标签：架构

本文链接：https://blog.csdn.net/2401_84266125/article/details/137798546

版权

2024年程序员学习专栏收录该内容

42 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Golang全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注go）

正文

Ghostbuster，这是一种检测人工智能生成文本的最先进的方法。Ghostbuster 的工作原理是在几个较弱的语言模型下找到在文档中生成每个标记的概率，然后根据这些概率组合函数作为最终分类器的输入。Ghostbuster 不需要知道使用什么模型来生成文档，也不需要知道在该特定模型下生成文档的概率。这一特性使 Ghostbuster 对于检测可能由未知模型或黑盒模型生成的文本特别有用，例如流行的商业模型 ChatGPT 和 Claude，这些模型的概率不可用。我们特别感兴趣的是确保Ghostbuster 能够很好地概括，因此我们评估了文本生成的一系列方式，包括不同的领域（使用新收集的论文、新闻和故事数据集）、语言模型或提示。

人工创作和 AI 生成的文本示例

为什么采用这种方法

目前许多人工智能生成的文本检测系统很难对不同类型的文本进行分类（例如，不同的写作风格，或不同的文本生成模型或提示）。仅使用困惑的简单模型通常无法捕获更复杂的特征，并且在新的写作领域中表现尤其差。事实上，我们发现，在某些领域，包括非英语母语人士的数据，仅困惑的基线比随机基线更糟糕。同时，基于大型语言模型（如 RoBERTa）的分类器很容易捕获复杂的特征，但对训练数据拟合过度且泛化效果不佳：我们发现 RoBERTa 基线具有灾难性的最坏情况泛化性能，有时甚至比仅困惑的基线更差。零样本方法在不对标记数据进行训练的情况下，通过计算文本由特定模型生成的概率来对文本进行分类，当实际使用不同的模型生成文本时，也往往表现不佳。

Ghostbuster 的工作原理

Ghostbuster 使用三个阶段的训练过程：计算概率、选择特征、和分类器训练。

计算概率：我们通过计算在一系列较弱的语言模型（一个单元模型、一个三元模型和两个非指令调优的 GPT-3 模型，ada 和 davinci）下生成文档中每个单词的概率，将每个文档转换为一系列向量。

选择特征：我们使用结构化搜索程序来选择特征，其工作原理是（1）定义一组组合概率的向量和标量运算，以及（2）使用正向特征选择搜索这些操作的有用组合，重复添加最佳剩余特征。

分类器训练：我们根据基于概率的最佳特征和一些额外的手动选择特征训练线性分类器。

结果

当在同一领域进行训练和测试时，Ghostbuster 在所有三个数据集中都取得了 99.0 F1，比 GPTZero 高出 5.9 F1，比 DetectGPT 高出 41.6 F1。在域外，Ghostbuster 在所有条件下的平均 F1 为 97.0，比 DetectGPT 高出 39.6 F1，比 GPTZero 高出 7.5 F1。当在所有数据集上进行域内评估时，我们的 RoBERTa 基线达到了 98.1 F1，但其泛化性能不一致。Ghostbuster 在除创意写作领域外的所有领域都优于 RoBERTa 基线，并且平均而言，域外表现比 RoBERTa 好得多（13.8 F1 利润率）。

关于Ghostbuster 域内和域外性能的结果

为了确保 Ghostbuster 对用户提示模型的一系列方式（例如请求不同的写作风格或阅读水平）具有鲁棒性，我们评估了 Ghostbuster 对几种提示变体的鲁棒性。Ghostbuster 以 99.5 F1 的成绩超越了这些提示变体的所有其他测试方法。为了测试跨模型的泛化性，我们评估了 Claude 生成的文本的性能，其中 Ghostbuster 的性能也优于所有其他测试方法的 92.2 F1。

AI 生成的文本检测器通过轻微编辑生成的文本而被愚弄。我们研究了 Ghostbuster 对编辑的鲁棒性，例如交换句子或段落、重新排序字符或用同义词替换单词。句子或段落级别的大多数更改不会显着影响性能，但如果通过重复释义、使用商业检测规避器（如 Undetectable AI）或进行大量单词或字符级别的更改来编辑文本，则性能会平稳下降。在较长的文档上，性能也最好。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Go）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

2401_84266125

关注

28
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
伯克利研究院推出Ghostbuster用于检测由LLM代笔的文本，2024年最新蚂蚁金服Golang架构面试题

我们特别感兴趣的是确保Ghostbuster 能够很好地概括，因此我们评估了文本生成的一系列方式，包括不同的领域（使用新收集的论文、新闻和故事数据集）、语言模型或提示。同时，基于大型语言模型（如 RoBERTa）的分类器很容易捕获复杂的特征，但对训练数据拟合过度且泛化效果不佳：我们发现 RoBERTa 基线具有灾难性的最坏情况泛化性能，有时甚至比仅困惑的基线更差。零样本方法在不对标记数据进行训练的情况下，通过计算文本由特定模型生成的概率来对文本进行分类，当实际使用不同的模型生成文本时，也往往表现不佳。
复制链接

扫一扫