ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs-CSDN博客

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/136677570

本文探讨了大型语言模型（LLM）的安全性问题，特别是ASCII艺术如何被用来绕过现有安全措施。研究创建了VITC基准测试，显示GPT-3.5、GPT-4等SOTA LLM在识别ASCII艺术时存在困难，进而提出了ArtPrompt攻击方法，能引发LLM的不良行为。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs》的翻译。

摘要

安全性对于大型语言模型（LLM）的使用至关重要。已经开发了多种技术，如数据过滤和监督微调，以加强LLM的安全性。然而，目前已知的技术假设用于LLM安全比对的语料库仅由语义来解释。然而，这一假设在现实世界的应用程序中并不成立，这导致了LLM中的严重漏洞。例如，论坛的用户经常使用ASCII艺术，一种基于文本的艺术形式来传达图像信息。在本文中，我们提出了一种新的基于ASCII艺术的越狱攻击，并引入了一个全面的基准测试文本中的视觉挑战（VITC）来评估LLM在识别不能仅通过语义解释的提示方面的能力。我们发现，五个SOTA LLM（GPT-3.5、GPT-4、Gemini、Claude和Llama2）很难识别以ASCII艺术形式提供的提示。基于这一观察结果，我们开发了越狱攻击ArtPrompt，它利用LLM在识别ASCII艺术方面的较差性能，绕过安全措施，引发LLM的不良行为。ArtPrompt只需要黑盒访问受害者LLM，使其成为一种实用的攻击。我们在五个SOTA LLM上评估了ArtPrompt，并表明ArtPrompt可以有效地诱导所有五个LLM的不期望行为。