研究发现,可以很随意地破解破越狱ChatGPT、Bard和Claude的安全限制措施

最新研究发现,可以很随意地破解ChatGPT、Bard和Claude等主流AI系统的安全限制措施。

卡内基梅隆大学和旧金山AI安全中心的研究人员在最新报告中表示,他们已经发现了潜在的多种方法来突破主流AI聊天机器人的安全限制。

ChatGPT、Bard和Claude等语言模型背后的公司采取了广泛的内容审核措施,以确保它们不会产生不合理内容。但是研究人员发现,他们可以借鉴针对开源系统开发的破解技术,来打开市面上主流的受限制AI系统的另一面。

报告证明,主要通过在用户查询语句末尾添加特定字符的自动对抗性攻击,可以突破安全限制,诱导聊天机器人生成主流认为的不正确内容、非正常信息或惊人言论。由于这些破解技术是完全自动化完成的,研究人员表示存在“几乎不受限”的类似手段。

研究人员已经将发现披露给了谷歌、Anthropic和OpenAI。业内专家指出,这引发了对AI审核机制及开源语言模型公开发布的安全性等问题的广泛思考。AI系统的内容控制固然重要,但要想彻底堵住所有“漏洞”似乎并不现实。相关公司需要在开发方面进行持续改进,以尽可能降低AI系统被滥用的风险。

相关阅读:一串神奇的字符,就能让ChatGPT在内的AI聊天机器人变得不正常

参考资料:
https://www.94c.cc/info/jailbreaking-chatgpt-bard-and-claude-casually.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值