本文是LLM系列文章,针对《ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs》的翻译。
ArtPrompt:针对对齐LLM的ASCII基于艺术的越狱攻击
摘要
安全性对于大型语言模型(LLM)的使用至关重要。已经开发了多种技术,如数据过滤和监督微调,以加强LLM的安全性。然而,目前已知的技术假设用于LLM安全比对的语料库仅由语义来解释。然而,这一假设在现实世界的应用程序中并不成立,这导致了LLM中的严重漏洞。例如,论坛的用户经常使用ASCII艺术,一种基于文本的艺术形式来传达图像信息。在本文中,我们提出了一种新的基于ASCII艺术的越狱攻击,并引入了一个全面的基准测试文本中的视觉挑战(VITC)来评估LLM在识别不能仅通过语义解释的提示方面的能力。我们发现,五个SOTA LLM(GPT-3.5、GPT-4、Gemini、Claude和Llama2)很难识别以ASCII艺术形式提供的提示。基于这一观察结果,我们开发了越狱攻击ArtPrompt,它利用LLM在识别ASCII艺术方面的较差性能,绕过安全措施,引发LLM的不良行为。ArtPrompt只需要黑盒访问受害者LLM,使其成为一种实用的攻击。我们在五个SOTA LLM上评估了ArtPrompt,并表明ArtPrompt可以有效地诱导所有五个LLM的不期望行为。