MIT研发好奇心驱动的红队模型，高效防范AI“有毒”信息

可信AI进展

已于 2024-04-22 11:50:36 修改

阅读量436

点赞数 13

分类专栏：人工智能文章标签：人工智能

于 2024-04-17 17:10:42 首次发布

本文链接：https://blog.csdn.net/m0_56647251/article/details/137880286

版权

人工智能专栏收录该内容

4 篇文章 0 订阅

订阅专栏

🌟欢迎大家在 GitHub 上 Star 我们：

分布式全链路因果学习系统 OpenASCE: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE

大模型驱动的知识图谱 OpenSPG: https://github.com/OpenSPG/openspg

大规模图学习系统 OpenAGL: https://github.com/TuGraph-family/TuGraph-AntGraphLearning

麻省理工学院（MIT）Improbable AI实验室和MIT-IBM Watson AI实验室的研究人员利用机器学习改进了红队技术，“红队模型”显著提升了输入测试的覆盖范围，还能从已经通过测试的Chatbot中诱发出“有毒”回应。

大模型可以帮助我们写代码、写文章，但如果有不法之徒想通过AI获得制作炸弹的方法，AI也会毫无保留地提供这些信息。
为防止诸如此类的安全问题，大模型公司通常会使用“红队”技术。测试人员会编写能触发待测模型生成不安全或有害文本的prompt，这些prompt被用来教导Chatbot避免此类回应。但这种方法无法穷尽所有产生有毒内容的情况，一旦遗漏了某些prompt，还是会有安全的风险。麻省理工学院（MIT）Improbable AI实验室和MIT-IBM Watson AI实验室的研究人员利用机器学习改进了红队技术。他们训练红队大模型自动生成多样化的prompt，以触发待测Chatbot生成更多类型的不良回应。他们会训练“红队模型”在编写prompt时保持好奇，并专注于能引发目标测试模型产生有毒回应的prompt。该技术在生成更多独特、能引发更强烈“有毒”回应的prompt方面，超越了测试人员与其他机器学习方法。相比其他自动化方法，显著提升了对输入测试的覆盖范围，还能从已经通过测试的Chatbot中诱发出“有毒”回应。“目前，每个大模型都必须经历一个非常漫长的‘红队’测试期以确保其安全性。如果我们希望在快速变化的环境中更新这些模型，这种方式将无法持续。我们的方法提供了一种更快、更有效的质测试方式。”Zhang-Wei Hong说，他是 Improbable AI实验室电子工程与计算机科学（EECS）的研究生，也是关于这种“红队模型”技术论文的第一作者。

论文地址： https://arxiv.org/pdf/2402.19464.pdf

自动化“红队”测试

大模型通常基于数十亿个公共网站的海量文本进行训练。因此，它们不仅能学会生成“有毒”的词汇或描述非法活动，还有可能泄露它们在训练过程中收集到的个人信息。
人工红队测试既耗时又昂贵，而且往往生成的prompt不能覆盖所有场景，这促使研究人员利用机器学习来实现自动化。通常这些自动化技术通过强化学习来训练红队模型，从而奖励红队模型生成能触发被测模型有害反应的prompt。但由于强化学习的工作方式，红队模型往往会反复生成一些高度有害的类似的prompt，以最大化奖励。所以麻省理工学院的研究人员采用了一种称为“好奇心驱动探索”的技术。红队模型被激励对其生成的每个prompt的结果感到好奇，因此它会尝试使用不同词语、句子结构或含义的prompt。“如果红队模型已经见过某个特定prompt，那么重复生成该prompt将不会引起红队模型的好奇心，因此它不断被激发生成新的prompt，”Zhang-Wei Hong说。在训练过程中，红队模型生成一个prompt并与Chatbot互动。Chatbot作出回应，安全分类器对这些回应的毒性做评级，并据此对红队模型进行奖励。

奖励好奇心

红队模型的目标是通过新颖的prompt引发更多毒性的回应，以此最大化其奖励。研究人员通过在强化学习设置中调整奖励信号，来激发红队模型的好奇心。首先，除了最大限度地提高毒性外，他们还引入了熵奖励，鼓励红队模型在探索prompt时更具随机性。其次，为了使代理具有好奇心，他们包含了两种奖励模式。一种基于模型prompt中单词的相似性给予奖励，另一种则基于语义相似性给予奖励，相似度越低，奖励越高。为防止红队模型生成随机、无意义的文本，这种文本可能会诱使分类器给出高毒性评分，研究人员还在训练目标中添加了自然语言奖励。在这些改进到位后，研究人员将他们红队模型生成的回复的毒性与多样性，与其他自动化技术进行了比较。他们的模型在这两个指标上均超过了基线。他们还使用红队模型测试了一个经过人工反馈微调、不会给出有毒回复的聊天机器人。红队模型迅速产生了196个prompt，并从这个“安全”的聊天机器人中引出了有毒的回应。Agrawal（Improbable AI实验室主任及CSAIL助理教授，也是这篇论文的作者之一）表示：“我们正在看到大量模型的涌现，而且这一趋势还将持续。想象一下，有成千上万甚至更多的模型，并且这些模型还在频繁更新。这些大模型将成为我们生活的重要组成部分，因此在向公众发布前对它们进行安全测试至关重要。人工测试模型根本不可行，我们的工作旨在减少人力投入，以确保实现一个更安全、更可信的AI。”未来，研究人员希望使红队模型能够生成更广泛主题的prompt。他们还想探索使用大模型作为毒性分类器。这样，用户可以基于公司政策文档等对毒性分类器进行训练，使红队模型能够测试Chatbot是否违反公司政策。

如有侵权，请联系删除。参考链接：

https://news.mit.edu/2024/faster-better-way-preventing-ai-cha...

关注我们

OpenSPG:

官网：https://spg.openkg.cn

Github：https://github.com/OpenSPG/openspg

OpenASCE:

官网：https://openasce.openfinai.org/

GitHub：[https://github.com/Open-All-Scale-Causal-Engine/OpenASCE]

从《繁花》到现实，现代版“宝总”如何通过智能手段预测股市？

Paper Digest｜基于在线聚类的自监督自蒸馏序列推荐模型

Paper Digest | 突破个性化推荐数据稀疏性：长尾增强的图对比学习算法研究

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育，覆盖大规模图学习，因果推理，知识图谱，大模型等技术领域，欢迎扫码关注，解锁更多 AI 资讯～

可信AI进展

关注

13
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
MIT研发好奇心驱动的红队模型，高效防范AI“有毒”信息

分布式全链路因果学习系统 OpenASCE:大模型驱动的知识图谱 OpenSPG:大规模图学习系统 OpenAGL:麻省理工学院（MIT）Improbable AI实验室和MIT-IBM Watson AI实验室的研究人员利用机器学习改进了红队技术，“红队模型”显著提升了输入测试的覆盖范围，还能从已经通过测试的Chatbot中诱发出“有毒”回应。大模型可以帮助我们写代码、写文章，但如果有不法之徒想通过AI获得制作炸弹的方法，AI也会毫无保留地提供这些信息。
复制链接

扫一扫