革命性AI防御：麻省理工新技术让聊天机器人远离有害言论｜TodayAI

本文链接：https://blog.csdn.net/ponderai/article/details/137600655

研究人员开发了一种新方法，通过训练机器学习模型自动生成多样化的提示，以检测并防止AI聊天机器人输出有害内容。好奇心驱动的强化学习策略增强了模型在生成独特且有害提示方面的效果，为快速迭代和保证AI模型安全提供了有效途径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了防止AI聊天机器人给出有害回应，研究者们开发了一种新的机器学习模型。这种模型能够找到更多样化的训练聊天机器人的提示，以避免令人讨厌或有害的输出。用户可能会要求AI聊天机器人编写计算机程序或总结一篇文章，而该聊天机器人很可能能够生成有用的代码或撰写出清晰的概要。然而，也有可能被请求提供制造炸弹的指导，聊天机器人也可能应对得来。

为了防止这种及其他安全问题，构建大型语言模型的组织通常会采用一种称为红队测试的过程来进行保护。人类测试团队会编写旨在引发不安全或有毒文本的提示，用于训练聊天机器人避免这类回答。

然而，这种方法只有在工程师知道哪些提示可能有害时才有效。如果测试人员漏掉了某些提示，这是很可能发生的，一个被认为是安全的聊天机器人仍然有可能产生不安全的回答。

来自麻省理工学院不可能实验室和麻省理工学院-IBM沃森人工智能实验室的研究小组利用机器学习技术改进了红队测试。他们开发了一种技术，可以训练一个专门的大型语言模型，自动生成多样化的提示，以触发被测试聊天机器人更广泛范围的不良反应。

他们通过指导专门模型在编写提示时保持好奇心，并专注于那些能引发目标模型有害反应的新颖提示来实现这一点。

这项技术在生成更多独特提示和引发更有害反应方面，超过了人类测试者和其他机器学习方法。这种方法不仅显著提高了与其他自动化方法相比被测试输入的覆盖面，而且还能够从已经加入了人类专家设置的安全防护措施的聊天机器人中引出有害反应。

目前，每个大型语言模型都需要经过长时间的红队测试以确保其安全。如果希望在快速变化的环境中更新这些模型，这种方法将不可持续。该研究团队提供了一种更快、更有效的质量保障方法。

该团队还包括一群研究生、研究科学家以及来自计算机科学与人工智能实验室（CSAIL）的高级研究科学家和负责人。这项研究将在国际学习表征会议上展示。

自动化红队测试

像那些支撑AI聊天机器人的大型语言模型通常通过展示来自数十亿公共网站的大量文本进行训练。因此，它们不仅能学会生成有害内容或描述非法活动，这些模型还可能泄露它们可能收集的个人信息。

人类红队测试的繁琐和高成本本质，以及在生成足够多样化的提示以完全保护模型方面的低效性，促使研究者们寻求通过机器学习来自动化这一过程。

这些技术通常通过使用强化学习训练专门模型。这种试错过程奖励专门模型生成触发被测试聊天机器人产生有害反应的提示。

但由于强化学习的工作机制，专门模型往往会重复生成少数几个相似且高度有害的提示，以最大化其奖励。