MIT研发好奇心驱动的红队模型,高效防范AI“有毒”信息

🌟欢迎大家在 GitHub 上 Star 我们:

分布式全链路因果学习系统 OpenASCE: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE

大模型驱动的知识图谱 OpenSPG: https://github.com/OpenSPG/openspg

大规模图学习系统 OpenAGL: https://github.com/TuGraph-family/TuGraph-AntGraphLearning

麻省理工学院(MIT)Improbable AI实验室和MIT-IBM Watson AI实验室的研究人员利用机器学习改进了红队技术,“红队模型”显著提升了输入测试的覆盖范围,还能从已经通过测试的Chatbot中诱发出“有毒”回应。

大模型可以帮助我们写代码、写文章,但如果有不法之徒想通过AI获得制作炸弹的方法,AI也会毫无保留地提供这些信息。
为防止诸如此类的安全问题,大模型公司通常会使用“红队”技术。测试人员会编写能触发待测模型生成不安全或有害文本的prompt,这些prompt被用来教导Chatbot避免此类回应。但这种方法无法穷尽所有产生有毒内容的情况,一旦遗漏了某些prompt,还是会有安全的风险。麻省理工学院(MIT)Improbable AI实验室和MIT-IBM Watson AI实验室的研究人员利用机器学习改进了红队技术。他们训练红队大模型自动生成多样化的prompt,以触发待测Chatbot生成更多类型的不良回应。他们会训练“红队模型”在编写prompt时保持好奇,并专注于能引发目标测试模型产生有毒回应的prompt。该技术在生成更多独特、能引发更强烈“有毒”回应的prompt方面,超越了测试人员与其他机器学习方法。相比其他自动化方法,显著提升了对输入测试的覆盖范围,还能从已经通过测试的Chatbot中诱发出“有毒”回应。“目前,每个大模型都必须经历一个非常漫长的‘红队’测试期以确保其安全性。如果我们希望在快速变化的环境中更新这些模型,这种方式将无法持续。我们的方法提供了一种更快、更有效的质测试方式。”Zhang-Wei Hong说,他是 Improbable AI实验室电子工程与计算机科学(EECS)的研究生,也是关于这种“红队模型”技术论文的第一作者。

相关代码: https://github.com/Improbable-AI/curiosity_redteam

论文地址: https://arxiv.org/pdf/2402.19464.pdf

自动化“红队”测试

大模型通常基于数十亿个公共网站的海量文本进行训练。因此,它们不仅能学会生成“有毒”的词汇或描述非法活动,还有可能泄露它们在训练过程中收集到的个人信息。
人工红队测试既耗时又昂贵,而且往往生成的prompt不能覆盖所有场景,这促使研究人员利用机器学习来实现自动化。通常这些自动化技术通过强化学习来训练红队模型,从而奖励红队模型生成能触发被测模型有害反应的prompt。但由于强化学习的工作方式,红队模型往往会反复生成一些高度有害的类似的prompt,以最大化奖励。所以麻省理工学院的研究人员采用了一种称为“好奇心驱动探索”的技术。红队模型被激励对其生成的每个prompt的结果感到好奇,因此它会尝试使用不同词语、句子结构或含义的prompt。“如果红队模型已经见过某个特定prompt,那么重复生成该prompt将不会引起红队模型的好奇心,因此它不断被激发生成新的prompt,”Zhang-Wei Hong说。在训练过程中,红队模型生成一个prompt并与Chatbot互动。Chatbot作出回应,安全分类器对这些回应的毒性做评级,并据此对红队模型进行奖励。

奖励好奇心

红队模型的目标是通过新颖的prompt引发更多毒性的回应,以此最大化其奖励。研究人员通过在强化学习设置中调整奖励信号,来激发红队模型的好奇心。首先,除了最大限度地提高毒性外,他们还引入了熵奖励,鼓励红队模型在探索prompt时更具随机性。其次,为了使代理具有好奇心,他们包含了两种奖励模式。一种基于模型prompt中单词的相似性给予奖励,另一种则基于语义相似性给予奖励,相似度越低,奖励越高。为防止红队模型生成随机、无意义的文本,这种文本可能会诱使分类器给出高毒性评分,研究人员还在训练目标中添加了自然语言奖励。在这些改进到位后,研究人员将他们红队模型生成的回复的毒性与多样性,与其他自动化技术进行了比较。他们的模型在这两个指标上均超过了基线。他们还使用红队模型测试了一个经过人工反馈微调、不会给出有毒回复的聊天机器人。红队模型迅速产生了196个prompt,并从这个“安全”的聊天机器人中引出了有毒的回应。Agrawal(Improbable AI实验室主任及CSAIL助理教授,也是这篇论文的作者之一)表示:“我们正在看到大量模型的涌现,而且这一趋势还将持续。想象一下,有成千上万甚至更多的模型,并且这些模型还在频繁更新。这些大模型将成为我们生活的重要组成部分,因此在向公众发布前对它们进行安全测试至关重要。人工测试模型根本不可行,我们的工作旨在减少人力投入,以确保实现一个更安全、更可信的AI。”未来,研究人员希望使红队模型能够生成更广泛主题的prompt。他们还想探索使用大模型作为毒性分类器。这样,用户可以基于公司政策文档等对毒性分类器进行训练,使红队模型能够测试Chatbot是否违反公司政策。

如有侵权,请联系删除。参考链接

https://news.mit.edu/2024/faster-better-way-preventing-ai-cha...

关注我们

OpenSPG:

官网:https://spg.openkg.cn

Github:https://github.com/OpenSPG/openspg

OpenASCE:

官网:https://openasce.openfinai.org/

GitHub:[https://github.com/Open-All-Scale-Causal-Engine/OpenASCE]

文章推荐

哪些 idea 能打动 Y Combinator?YC Demo Day 2024,一半以上都是 AI 应用

从《繁花》到现实,现代版“宝总”如何通过智能手段预测股市?

Paper Digest|基于在线聚类的自监督自蒸馏序列推荐模型

Paper Digest | 突破个性化推荐数据稀疏性:长尾增强的图对比学习算法研究

“可信 AI 进展 “  公众号致力于最新可信人工智能技术的传播和开源技术的培育,覆盖大规模图学习,因果推理,知识图谱,大模型等技术领域,欢迎扫码关注,解锁更多 AI 资讯~ 

  • 13
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值