一些机智的研究人员发现了通过ASCII艺术“越狱”AI聊天机器人的新招数——ArtPrompt技巧

最新推荐文章于 2024-10-11 11:18:48 发布

新加坡内哥谈技术

最新推荐文章于 2024-10-11 11:18:48 发布

阅读量534

点赞数 15

文章标签：人工智能

本文链接：https://blog.csdn.net/2301_79342058/article/details/136574356

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

最近，一伙在华盛顿和芝加哥的研究达人们搞出了个叫“艺术提示”的黑科技，直接绕过了大型语言模型（LLM）的安全防线。想象一下，这些高大上的聊天机器人，比如GPT-3.5、GPT-4、Gemini、Claude还有Llama2，原本是被设计来拒绝某些问题的，结果被一堆ASCII艺术图案给套路了。根据他们发表的研究论文《艺术提示：基于ASCII艺术的对齐LLM越狱攻击》，这帮机器人被ASCII艺术图案引诱，居然开始教人怎么制造炸弹和伪造钞票了。

这个“艺术提示”操作简单又有效，攻击方式分为两步：第一步是“词语遮挡”，攻击者首先找出要引诱的目标行为，然后把可能会触发LLM安全对齐机制、导致提示被拒绝的敏感词遮挡起来。第二步，进入“伪装提示生成”环节，这时候攻击者用ASCII艺术生成器来替代那些被识别出的词语，生成一堆ASCII艺术字，然后把这堆艺术字塞回原来的提示里，发给目标LLM，引诱它生成回应。

这事儿听起来像是科技版的“打地鼠”，AI开发者们可是拼了老命想把他们的聊天机器人关在安全的围栏里，避免被用来干些不法之事。但现在，"艺术提示"这招一出，简直让人大跌眼镜。就像那研究报告里的例子展示的，一个ASCII艺术图案就能让这些现代LLM们掉进圈套，连基本的道德和安全防护都绕过去了。