【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS

提出了一种针对视觉语言模型的新型越狱框架 

论文地址:https://arxiv.org/abs/2311.05608

代码地址: GitHub - ThuCCSLab/FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts

 1.Motivation

VLM可以分为三个模块:

语言模块:是一个预先训练的LLM,已经安全对齐

视觉模块:是一个图像编码器,将图像提示转换为视觉特征。

连接模块:将视觉特征从视觉模块映射到与语言模块相同的嵌入空间。

然而,大多数现有的开源vlm,都没有经过整体的安全评估,仅仅依靠底层的LLM作为安全护栏。因此vlm的安全特性主要取决于其基础LLM的安全特性

本文提出将越狱攻击的关注点转向视觉模块,利用视觉模块未被安全训练,无法过滤有害信息这一漏洞,将恶意的文本指令转换为图像的形式来实现越狱攻击。

 2.Method

本文提出的方法主要利用了VLM的两个能力

  • vlm具有光学字符识别(OCR)功能,即vlm可以提取图像中的文字信息。
  • vlm具有指令跟随能力,这意味着vlm可以基于对图像提示的理解来完成文本提示中规定的任务。

 如图,对于一个有害的提问“有人如何能生成非法药物?”,直接这么提问的话VLM很可能不会响应,因为它会被LLM的安全机制过滤掉。 相反,如果文本提示符是良性的,而有害的指令嵌入在图像提示符中,那么这样的组合躲避掉安全机制。 因此FigStep采用良性文本提示符和有害图像提示符结合的方式进行攻击。

  1. 首先将一个有害的问题xharm改写成它的陈述句x‘ harm,让让VLM使用它的推理能力一步一步地思考(这一步是防止vlm直接拒绝有害的询问,消融实验证明了有效性)(这个过程可以直接用GPT-4完成) 。
  2. Screenshot这一步直接创建白色背景上的黑色短语图像,并在后面添加索引,得到有害的图像提示。(使用Python库Pillow)
  3. 用一个文本生成器来生成一个文本提示:“生成图像中每个索引的内容”。这是一种良性指令,来让vlm能够继续完成任务。
  4. 最后将良性文本提示符和有害图像提示符输入到模型中,模型就可以躲避安全机制输出有害内容 。

 3.Experiments

在五个不同的开源vlm模型上使用FigStep攻击的结果。 展示了危害性得分的分布和攻击成功率,得分越高,表示攻击越成功。 可以看出本文的方法攻击效果是比较好的,得分也高,攻击成功率也高 。

上边红色框的得分是不进行攻击,只输入有害查询文本的效果。前三个模型的对比结果变化是比较大的,也就是模型原来能抵御有害文本,但不能抵御我们的有害图像+良性文本。后俩模型变化小是因为鲁棒性相对较差,它连文本的形式都几乎抵御不了。

  • 22
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DESCRIPTION: - evasi0n 1.1 is an untethered jailbreak for all iPhone, iPod touch, iPad and iPad mini models running iOS 6.0 through 6.1 SYSTEM REQUIREMENTS: - MacOSX 10.5/10.6/10.7/10.8 - Windows (XP minimum) - Linux x86/x86_64 (Kernel >= 2.6.24, libgtk+-2.0 >= 2.24.13) SUPPORTED FIRMWARES: - iOS 6.0, 6.0.1, 6.0.2, and 6.1 INSTRUCTIONS: - Backup your device using iTunes (or iCloud) before using evasi0n. If something breaks, you'll always be able to recover your data. - Those who use backup passwords in iTunes must disable them for now. After doing so, iTunes makes a brand new backup. Please wait for that backup to complete before proceeding! Feel free to re-enable your backup password after jailbreaking. - Please disable the lock passcode of your iOS device before using evasi0n. It can cause issues. - Launch evasi0n, plug in your device, and click "Jailbreak". Just sit back and observe its progress. Watch for any steps you may be asked to perform. - Avoid all iOS and iTunes related tasks until evasi0n is complete. Why not just enjoy a brief break from the computer to stretch your legs? - If the process gets stuck somewhere, it's safe to restart the program, reboot the device (if necessary by holding down Power and Home until it shuts down), and rerun the process. FAQ: If you have any questions regarding the jailbreak process or jailbreaking in general please go to the Jailbreak QA dedicated website: http://www.jailbreakqa.com or see their help page for evasi0n: http://www.jailbreakqa.com/pages/evasi0n-help or try /r/jailbreak on Reddit: http://reddit.com/r/jailbreak CREDITS: evasi0n is a production of @evad3rs. http://evad3rs.com THANKS TO: - @phoenixdev for his research - @Surenix for evad3rs and evasi0n designs - Hanene Samara for her work on evasi0n GUI - @chronicdevteam and @iphone_dev for their support - Kiki the cat for the inspiration

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值