[大语言模型-论文精读] 词性对抗性攻击：文本到图像生成的实证研究_针对文本到图像生成过程的大语言模型攻击-CSDN博客

本文链接：https://blog.csdn.net/fyf2007/article/details/142614140

[大语言模型-论文精读] 词性对抗性攻击：文本到图像生成的实证研究

Adversarial Attacks on Parts of Speech: An Empirical Study in
Text-to-Image Generation
Authors: G M Shahariar, Jia Chen, Jiachen Li, Yue Dong
词性对抗性攻击：文本到图像生成的实证研究
在这里插入图片描述
近期研究表明，文本到图像（T2I）模型对于对抗性攻击非常脆弱，尤其是文本提示中的名词扰动。在本研究中，我们调查了文本提示中不同词性（POS）标签对抗性攻击对T2I模型生成的图像的影响。我们创建了一个高质量的数据集，用于现实的场景中词性标记的交换，并执行基于梯度的攻击以找到误导T2I模型生成更改标记的图像的对抗性后缀。我们的经验结果表明，不同词性标签类别的攻击成功率（ASR）有显著差异，名词、专有名词和形容词最容易受到攻击。我们探索了对抗性后缀转向效应背后的机制，发现不同词性标签中关键标记的数量和内容融合有所不同，而像后缀可转移性这样的特征在各个类别中是一致的。

研究背景

文本到图像（T2I）生成模型如Stable Diffusion、DALL-E2、Imagen和ediff-i在图像生成领域取得了稳步进展，弥合了文本描述和视觉表示之间的语义差距。然而，最近的研究表明，T2I模型对文本提示中的对抗性扰动很敏感，例如插入无意义的单词、短语或无关字符，这可能会显著影响生成的图像。

由于文章内容较长，我将分段为您翻译。

文章标题

对抗性词性攻击：文本到图像生成的实证研究

摘要

近期研究表明，文本到图像（T2I）模型对于对抗性攻击非常脆弱，尤其是文本提示中的名词扰动。在本研究中，我们调查了文本提示中不同词性（POS）标签对抗性攻击对T2I模型生成的图像的影响。我们创建了一个高质量的数据集，用于现实的场景中词性标记的交换，并执行基于梯度的攻击以找到误导T2I模型生成更改标记的图像的对抗性后缀。我们的经验结果表明，不同词性标签类别的攻击成功率（ASR）有显著差异，名词、专有名词和形容词最容易受到攻击。我们探索了对抗性后缀转向效应背后的机制，发现不同词性标签中关键标记的数量和内容融合有所不同，而像后缀可转移性这样的特征在各个类别中是一致的。

1 引言

文本到图像（T2I）生成模型如Stable Diffusion (Rombach et al., 2022; Podell et al., 2023)，DALL-E2 (Ramesh et al., 2022)，Imagen (Saharia et al., 2022)，ediff-i (Balaji et al., 2022)在通过弥合文本描述和视觉表示之间的语义差距来生成图像方面取得了稳步进展。与仅依赖像素操作的传统方法不同，这些模型利用潜在空间中的多模态对齐来解释和合成文本提示中的复杂视觉内容。最近的研究，例如Tang et al. (2023)，解释了文本到图像的交叉对齐是如何通过文本-图像归因分析进行转换的，证明了不同的词性标签在合成过程中被交叉模态注意机制很好地捕获。
在这里插入图片描述

另一方面，研究表明T2I模型对文本提示中的对抗性扰动很敏感，例如插入无意义的单词（Millière, 2022）、短语（Maus et al., 2023）或无关字符（Zhuang et al., 2023），这可能会显著影响生成的图像（Chefer et al., 2023; Salman et al., 2023）。然而，当前对T2I生成模型的对抗性攻击，无论是基于启发式的方法（Zhuang et al., 2023; Gao et al., 2023; Maus et al., 2023）还是基于梯度的自动方法（Zhuang et al., 2023; Liang et al., 2023; Liu et al., 2023; Shahgir et al., 2023; Yang et al., 2024a,b; Du et al., 2024; Zhai et al., 2024），都特别针对文本提示中的实体或对象（即名词），忽略了其他词性。在本文中，我们旨在回答以下两个研究问题：

Q1: 对抗性攻击，特别是针对T2I模型的基于梯度的攻击，在针对不同POS标签类别时是否表现出相似的行为？
Q2: 在针对不同POS标签类别进行对抗性攻击时，与攻击成功率（ASR）相关的共同或不同特征是什么？

为了弥补分析不同POS标签类别攻击机制之间的差距，我们首先创建了一个包含现实场景的数据集，用于交换不同POS标签类别的对抗性攻击。图1提供了我们数据集的一些示例，涵盖了Tang等人（2023）提出的六个POS标签：名词、形容词、动词、副词、数词和专有名词，以及成功误导T2I模型生成与目标属性相关的图像的对抗性后缀。创建这样一个数据集并非易事，因为Shahgir等人（2023）指出，T2I模型对ASR可能受到内部偏见的影响，而不是攻击本身；我们在创建数据集时尽量减小了这种偏见。据我们所知，目前还没有可用于分析除名词外其他POS标签对抗性攻击的数据集（参见表1）。我们使用专门为T2I模型设计的基于梯度的标记搜索算法进行了针对性的对抗性攻击，以有效导航T2I文本编码器的更大词汇量（Shahgir et al., 2023）。攻击目标是创建一个对抗性提示，使得目标POS标记出现在生成的图像中，同时确保输入提示中的原始POS标记不出现。