一些机智的研究人员发现了通过ASCII艺术“越狱”AI聊天机器人的新招数——ArtPrompt技巧

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

最近,一伙在华盛顿和芝加哥的研究达人们搞出了个叫“艺术提示”的黑科技,直接绕过了大型语言模型(LLM)的安全防线。想象一下,这些高大上的聊天机器人,比如GPT-3.5、GPT-4、Gemini、Claude还有Llama2,原本是被设计来拒绝某些问题的,结果被一堆ASCII艺术图案给套路了。根据他们发表的研究论文《艺术提示:基于ASCII艺术的对齐LLM越狱攻击》,这帮机器人被ASCII艺术图案引诱,居然开始教人怎么制造炸弹和伪造钞票了。

这个“艺术提示”操作简单又有效,攻击方式分为两步:第一步是“词语遮挡”,攻击者首先找出要引诱的目标行为,然后把可能会触发LLM安全对齐机制、导致提示被拒绝的敏感词遮挡起来。第二步,进入“伪装提示生成”环节,这时候攻击者用ASCII艺术生成器来替代那些被识别出的词语,生成一堆ASCII艺术字,然后把这堆艺术字塞回原来的提示里,发给目标LLM,引诱它生成回应。

这事儿听起来像是科技版的“打地鼠”,AI开发者们可是拼了老命想把他们的聊天机器人关在安全的围栏里,避免被用来干些不法之事。但现在,"艺术提示"这招一出,简直让人大跌眼镜。就像那研究报告里的例子展示的,一个ASCII艺术图案就能让这些现代LLM们掉进圈套,连基本的道德和安全防护都绕过去了。

而这帮“艺术提示”开发者可不止是玩玩而已,他们还自信满满地宣称,这手段“在平均效率上超越所有其他攻击方法”,至少在目前看来,对于多模态语言模型来说,这是一种既实用又有效的攻击手段。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值