论文阅读:Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

本文探讨了文本到图像生成模型中的五类对抗攻击,包括字体攻击、比喻攻击、伪装攻击、提示词稀释攻击和中度混淆攻击。在StableDiffusion模型上的实验显示,这些攻击的成功率较高,暗示现有安全机制仍有改进空间。
摘要由CSDN通过智能技术生成

Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

论文链接
文生图模型因为其强大的生成能力而十分流行。,然而,一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容,比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法,将这些对抗攻击分为了5个类别:
Typographic Attacks:扰动输入文本提示词,使得模型生成不准确的内容。
Figurative Attacks:替换敏感词以逃避关键词过滤器。
Camouflage Attacks:通过一些稀有的表达方式,使得模型生成自认为安全,但是对人类来说并不安全的内容
Prompt Dilution Attacks:向提示词中添加无关的内容。
Medium Obfuscation Attacks:通过改变提出的上下文和媒介来诱导模型生成不适宜内容。
作者在Stable Diffusion模型上评估了上面的5种方法,结果如下:
ADVERSARIAL ATTACK REPORT ON STABLE DIFFUSION MODEL
可以看到,这些攻击在Stable Diffusion上的成功率和还是比较高的。这也说明,当前Stable Diffusion上的安全机制尚且不是很严格。需要注意的是,这篇论文里的对抗攻击主要的目的是逃脱安全过滤器,一些生成特定内容或者仅仅是生成和原始输出不一致的内容的攻击方法并没有被这个分类法所囊括。

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值