最新研究发现,可以很随意地破解ChatGPT、Bard和Claude等主流AI系统的安全限制措施。
卡内基梅隆大学和旧金山AI安全中心的研究人员在最新报告中表示,他们已经发现了潜在的多种方法来突破主流AI聊天机器人的安全限制。
ChatGPT、Bard和Claude等语言模型背后的公司采取了广泛的内容审核措施,以确保它们不会产生不合理内容。但是研究人员发现,他们可以借鉴针对开源系统开发的破解技术,来打开市面上主流的受限制AI系统的另一面。
报告证明,主要通过在用户查询语句末尾添加特定字符的自动对抗性攻击,可以突破安全限制,诱导聊天机器人生成主流认为的不正确内容、非正常信息或惊人言论。由于这些破解技术是完全自动化完成的,研究人员表示存在“几乎不受限”的类似手段。
研究人员已经将发现披露给了谷歌、Anthropic和OpenAI。业内专家指出,这引发了对AI审核机制及开源语言模型公开发布的安全性等问题的广泛思考。AI系统的内容控制固然重要,但要想彻底堵住所有“漏洞”似乎并不现实。相关公司需要在开发方面进行持续改进,以尽可能降低AI系统被滥用的风险。
相关阅读:一串神奇的字符,就能让ChatGPT在内的AI聊天机器人变得不正常
参考资料:
https://www.94c.cc/info/jailbreaking-chatgpt-bard-and-claude-casually.html