Doudou-82-CSDN博客

原创【论文阅读】Query-Relevant Images Jailbreak Large Multi-Modal Models

论文地址： https://arxiv.org/abs/2311.17600代码地址： GitHub - isXinLiu/MM-SafetyBench 本文的研究是由观察到一个现象引起的。如图1所示当图像与恶意查询不相关时，大型多模态模型(LMM)通常会会拒绝回应。这是因为此时大型语言模型组件占主导地位，大语言模型是经过了安全训练的，所以能够识别有害查询。当图像与恶意查询密切相关时，大型多模态模型(LMM)有一定的的概率会响应所提出的查询，但这个概率也是不高的。这是因为查询相关图像的存在激活了模型的视觉

2023-12-12 11:30:36 632

原创【论文阅读】JAILBREAK IN PIECES: COMPOSITIONAL ADVERSARIALATTACKS ON MULTI-MODAL LANGUAGE MODELS

论文地址： https://arxiv.org/abs/2307.14539基于文本的攻击很容易被人类或自动过滤器发现。因此许多工作开始研究视觉语言模型(VLMs)中视觉组件引起的漏洞。本文提出了一种跨文本和图像模态的组合攻击，使用良性文本和恶意图像结合的形式。恶意对抗图像由恶意触发器优化得到。重点关注四种恶意触发器:文本触发器、OCR文本触发器、视觉触发器以及OCR文本和视觉组合触发器。本文提出的攻击是基于嵌入空间的，旨在将恶意触发器隐藏在外观良好的图像中。本文有四种触发器：文本触发器、OCR文本触发器

2023-12-12 11:22:19 924

原创【论文阅读】FIGSTEP: JAILBREAKING LARGE VISION-LANGUAGE MODELS VIA TYPOGRAPHIC VISUAL PROMPTS

提出了一种针对视觉语言模型的新型越狱框架论文地址：https://arxiv.org/abs/2311.05608代码地址： GitHub - ThuCCSLab/FigStep: Jailbreaking Large Vision-language Models via Typographic Visual PromptsVLM可以分为三个模块：语言模块：是一个预先训练的LLM，已经安全对齐。视觉模块：是一个图像编码器，将图像提示转换为视觉特征。连接模块：将视觉特征从视觉模块映射到与语言模块相同的嵌入

2023-12-12 11:11:35 1457

原创【论文阅读】Jailbreak and Guard Aligned Language Modelswith Only Few In-Context Demonstrations

对齐语言模型的通用和可迁移对抗攻击。

2023-12-12 11:02:26 1391

原创【论文阅读】Jailbroken: How Does LLM Safety Training Fail?

随着大模型的应用越来越广泛，有一些人就想利用大模型去获得一些有害信息。所以现在的大语言模型在预训练之后都会经过安全训练阶段，这个阶段会设置一些安全措施，比如过滤和对齐等，让模型的输出符合人类价值观，训练它拒绝提供有害信息的请求，如图1这种有害问题，它就会拒绝回答.图1越狱攻击就是通过设计Prompt ，绕过大模型开发者为其设置的安全和审核机制，利用大模型对输入提示的敏感性和容易受到引导的特性，诱导大模型生成不合规的、本应被屏蔽的输出。

2023-12-12 10:41:18 1668

原创【论文阅读】ICCV 2023 || On the Adversarial Robustness of Multi-Modal Foundation Models

结合视觉和语言模型的多模态基础模型，如Flamingo或GPT-4，最近获得了极大的兴趣。基础模型的对齐用于防止模型提供有毒或有害的输出。虽然恶意用户已经成功地尝试越狱基础模型，但一个同样重要的问题是，诚实的用户是否会受到恶意第三方内容的伤害。在本文中，我们证明了为了改变多模态基础模型的标题输出而对图像进行的不可感知攻击(ε∞= 1/255)可以被恶意内容提供者用来伤害诚实用户，例如通过引导他们到恶意网站或广播虚假信息。这表明任何部署的多模态基础模型都应该使用对抗性攻击的对策。

2023-09-15 22:07:28 903 1

原创【论文阅读】ICCV 2023 || Set-level Guidance Attack: Boosting Adversarial Transferability of VLP Modles

视觉-语言预训练（VLP）模型在诸多任务上都取得了 SOTA 的性能。尽管如此，近期的工作[1][2]表明在白盒场景下VLP模型面对恶意攻击时仍然表现出脆弱性。然而，在贴近现实的黑盒场景下，VLP模型的鲁棒性仍有待进一步挖掘，这对于VLP模型在现实场景中的安全部署具有重要意义。本文从对抗迁移性的角度出发，首次探索 VLP 模型在黑盒场景下的对抗鲁棒性。作者首先评估了现有方法在基于 VLP 模型的多模态场景下的对抗迁移性，实验结果表明，现有的单模态攻击和多模态白盒攻击方法，都不足以生成具有强迁移性的对抗样本。

2023-09-15 21:47:46 606 2

原创【论文阅读】Diffusion Models for Imperceptible and Transferable Adversarial Attack

许多现有的对抗攻击在图像RGB空间上产生Lp范数扰动。尽管在可迁移性和攻击成功率方面取得了一些成就，但精心制作的对抗样本很容易被人眼感知。对于视觉的不可感知性，最近的一些研究探索了不受Lp范数约束的无限制攻击，但缺乏攻击黑盒模型的可迁移性。在这项工作中，我们通过利用扩散模型的生成和判别能力，提出了一种新的难以察觉和可迁移的攻击。

2023-05-20 11:12:22 2979 9

原创【论文阅读】NeurIPS 2022 || Boosting the Transferability of Adversarial Attackswith Reverse Adversarial P

深度神经网络(dnn)已被证明容易受到对抗样本的影响，对抗样本可以通过注入难以察觉的扰动来产生错误的预测。在这项工作中，我们研究了对抗样本的可迁移性，这是重要的，因为它对模型架构或参数通常未知的现实世界应用的威胁。许多现有的研究表明，对抗样例可能会过度拟合生成它们的替代模型，从而限制了其针对不同目标模型的迁移攻击性能。为了减轻替代模型的过拟合，我们提出了一种新的攻击方法，称为反向对抗扰动(RAP)。具体而言，我们主张在优化过程的每一步注入最坏情况扰动(即反向对抗扰动)

2023-05-18 10:20:03 606 1

原创【论文阅读】IJCAI 2022 || A Few Seconds Can Change Everything: Fast Decision-based Attacksagainst DNNs

先前的研究已经证明了深度学习模型对基于决策的对抗攻击的脆弱性，这种攻击仅基于来自输出决策的信息来制作对抗样本。然而，现有的基于决策的攻击有两个主要限制，即昂贵的查询成本和易于检测。本文提出了一种针对黑盒模型的新的、高效的基于决策的攻击，称为FastDrop，它只需要少量查询，并且在强大的防御下可以很好地工作。创新的关键在于，与现有的依赖于梯度估计和加性噪声的对抗攻击不同，FastDrop通过在频域中丢弃信息来生成对抗样本。在三个数据集上进行的大量实验表明，与SOTA攻击相比，FastDrop可以在相同的扰动

2023-05-11 10:54:56 232 1

原创【论文阅读】CVPR2023 ||CFA: Class-wise Calibrated Fair Adversarial Training

对于简单类，改进β可以以很少的干净精度降低为代价提高其鲁棒性，而对于硬类(例如，2、3、4类)，改进β只能获得有限的鲁棒性提高，但会显著降低干净精度。我们提出了一种新的方法，称为类智能校准公平对抗训练(CFA)，它在训练阶段动态定制不同类的对抗配置，并修改加权平均技术以提高和稳定最差类的鲁棒性。注意校准后的余量k可以自适应收敛，在训练阶段找到合适的范围，例如，如果余量对于k类太小，模型将执行高训练鲁棒精度tk，然后通过调度(6)增加k。对于简单的类，在最佳和最后的检查点处更大的扰动是有用的。

2023-04-25 16:42:56 737 1

原创【论文阅读】CVPR2023 || Improving the Transferability of Adversarial Samples by Path-Augmented Method

为了保证增强路径上的增强图像与目标图像的语义一致，我们可以对增强路径的长度进行约束，并对语义一致部分的图像进行增强，以避免路径过长。此外，为了避免增强语义不一致的图像，我们训练了一个语义预测器，它是一个轻量级的神经网络，来约束每个增强路径的长度。由于仿射变换的重点是改变图像的像素位置，因此增强图像的多样性不如线性路径的图像，从而导致较差的可。此外，尽管它们试图增强与目标图像语义一致的图像，但它们未能约束图像增强路径的长度，这可能导致增强的图像语义不一致。为了使增强图像多样化，我们提出探索更多的增强路径。

2023-04-22 20:13:49 925 2

原创 CVPR2023对抗攻击相关论文

在各种计算机视觉应用中，现实世界的对抗性物理补丁被证明在妥协最先进的模型中是成功的。基于输入梯度或特征分析的现有防御已经被最近基于 GAN 的攻击所破坏，这些攻击会产生自然补丁。在本文中，我们提出了Jedi，这是一种针对对抗性补丁的新防御，它对现实补丁攻击具有弹性。Jedi从信息论的角度解决了补丁定位问题;利用两个新的思想:(1)利用熵分析改进了潜在斑块区域的识别:我们发现即使在自然斑块中，对抗斑块的熵也很高;(2)使用能够从高熵核中完成补丁区域的自编码器，提高了对抗性补丁的定位。

2023-04-21 22:25:25 3554 1

原创【论文阅读】CVPR2023 || Adversarial Attack with Raindrops

众所周知，深度神经网络(DNN)容易受到对抗样本的攻击，这些对抗样本通常是人为设计来欺骗DNN的，但在现实世界中很少存在。在本文中，我们研究了由雨滴引起的对抗样本，以证明存在大量的自然现象能够作为DNN的对抗性攻击者。此外，我们提出了一种新的方法来生成对抗雨滴，表示为AdvRD，使用生成对抗网络(GAN)技术来模拟自然雨滴。我们的AdvRD制作的图像看起来与现实世界的雨滴图像非常相似，在统计上接近真实雨滴图像的分布，更重要的是，它可以对最先进的DNN模型进行强烈的对抗攻击。

2023-04-21 15:51:49 2085 6

原创【论文阅读】ECCV2022 || Enhanced Accuracy and Robustness via Multi-Teacher Adversarial Distillation

对抗训练是提高深度神经网络对抗鲁棒性的有效方法。虽然带来了可靠的鲁棒性，但对抗训练 (AT) 会降低识别干净样本你的性能。同时，对抗训练可以为大型模型带来比小型模型更多的鲁棒性。为了提高小模型的鲁棒性和简洁性，我们引入了多教师对抗鲁棒性蒸馏（MTARD）来指导小模型的对抗训练过程。具体来说，MTARD 使用多个大型教师模型，包括对抗教师和干净教师，通过知识蒸馏来指导小型学生模型进行对抗训练。此外，我们设计了一种动态训练算法来平衡对抗教师和干净教师模型之间的影响。

2023-04-19 21:27:21 278 1

原创【论文阅读】CVPR2022 ||Improving the Transferability of Targeted Adversarial Examples throughObject-Based

对抗样本的可迁移性允许对黑盒模型进行欺骗，基于迁移的target攻击由于其实际适用性而引起了很多兴趣。为了最大化迁移成功率，对抗样本应避免过拟合源模型，而图像增强是实现此目的的主要方法之一。然而，先前的工作使用简单的图像转换，例如调整大小，这限制了输入的多样性。为了解决这个限制，我们提出了基于对象的多样化输入（ODI）方法，该方法在 3D 对象上绘制对抗图像，并将渲染图像归类为目标类。我们的动机来自于人类对打印在 3D 物体上的图像的卓越感知。如果图像足够清晰，人类可以在各种观看条件下识别图像内容。

2023-04-19 21:27:03 378 1

原创【论文阅读】CVPR2022 ||Towards Efficient Data Free Black-box Adversarial Attack

经典的黑盒对抗攻击可以利用类似替代模型生成的可转移对抗样本来成功欺骗目标模型。然而，这些替代模型需要通过目标模型的训练数据进行训练，由于隐私或传输原因，很难获得。认识到对抗性查询的真实数据的可用性有限，最近的工作提出在无数据黑盒场景中训练替代模型。然而，他们基于生成对抗网络（GAN）的框架存在收敛失败和模型崩溃的问题，导致效率低下。在本文中，通过重新思考生成器和替代模型之间的协作关系，我们设计了一种新颖的黑盒攻击框架。所提出的方法可以通过少量的查询有效地模仿目标模型，并获得较高的攻击成功率。

2023-04-19 21:25:40 708 2

原创【论文阅读】ECCV2022 || Triangle Attack: A Query-efficientDecision-based Adversarial Attack

摘要：基于决策的攻击对现实世界的应用程序构成了严重威胁，因为它将目标模型视为黑匣子并且只访问硬预测标签。最近为减少查询次数做出了很大努力；然而，现有的基于决策的攻击仍然需要数千次查询才能生成高质量的对抗样本。在这项工作中，我们发现良性样本、当前和下一个对抗样本可以自然地在子空间中为任何迭代攻击构建三角形。基于正弦定理，我们提出了一种新颖的三角形攻击（TA），利用任何三角形中较长边总是与较大角度相对的几何信息来优化扰动。然而，直接将这些信息应用于输入图像是无效的，因为它无法在高维空间中彻底探索输入样本的邻域。

2023-04-19 20:44:47 414 1

原创【论文阅读】CVPR2022 || LAS-AT: Adversarial Training with Learnable Attack Strategy

本文发表于2022年的CVPR，它是由中科院信工所、香港中文大学（深圳）和腾讯 AILab 共同提出的一种可学习的对抗训练框架 LAS-AT 通过引入“可学习的攻击策略”，LAS-AT 可以学习自动产生攻击策略来提高模型的鲁棒性。

2023-04-19 20:21:29 438 1

原创【论文阅读】NIPS2022 || Enhance the Visual Representation via DiscreteAdversarial Training

对抗训练(A T)是目前公认的对抗范例防御最有效的方法之一，但其对标准性能的影响很大，在工业生产和应用上的实用性有限。令人惊讶的是，在自然语言处理(NLP)任务中，这种现象完全相反，在NLP任务中，T甚至可以受益于泛化。我们注意到AT在NLP任务中的优点可能来自于离散和符号输入空间。为了借鉴nlp风格AT的优点，我们提出了离散对抗训练(DA T)。DA T利用VQGAN将图像数据转换为离散的文本类输入，即视觉单词。然后，它最小化了这些离散图像的最大风险与符号对抗扰动。

2023-03-20 16:40:01 513 1

原创【论文阅读】CVPR2022 || Label-Only Model Inversion Attacks via Boundary Repulsion

文章的主要思想与白盒类似，仍然尝试在目标模型下合成目标类最大可能性输入，然而只有在标签的设置下，不能直接计算梯度信息并利用他来知道数据综合，本文认为解决这个挑战的关键见解就是给定类的高可能性区域通常是位于类的中心，远离决策边界，本文的这种算法就是允许合成图像迭代的远离决策边界。我们算法背后的直觉是，一个点离类的决策边界越远，这个点对类的代表性就越大。评估了对一系列模型架构和数据集的攻击，然后表明，尽管利用的目标模型信息较少，但我们的攻击仍大大优于基于置信度的黑箱攻击，并取得了与最先进的白箱攻击相当的性能。

2023-03-06 21:40:28 260 1

原创【论文阅读】IEEE TIFS 2022|| Perturbation Inactivation Based Adversarial Defensefor Face Recognition

为了利用识别模型的固有鲁棒性，我们探索了基于 CNN 的人脸识别模型在不同类型扰动下的鲁棒性。我们发现噪声的子空间是影响识别模型的关键因素。不同子空间中的扰动对识别模型的相似性度量有不同的影响。因此，我们假设存在一个子空间，其中扰动对相似性度量的不利影响小于其他子空间。这个子空间在本文中被命名为免疫空间。给定免疫空间，可以将对抗性样本投射到其中以消除对抗性扰动。因此，对抗性扰动将被限制在扰动具有最小不利影响的子空间中（干净的样本位于免疫空间中）。在在线防御中，攻击方法的搜索空间将被显着压缩，识别模型的欺骗难

2023-03-04 21:06:13 677 1

原创【论文阅读】Model Inversion Attacks that Exploit Confifidence Informationand Basic Countermeasures

文章介绍的是模型逆向攻击，模型逆向攻击（model inversion attack）可以利用黑盒模型输出中的 confidence 等信息将训练集中的人脸恢复出来。他们针对常用的面部识别模型，包括 softmax 回归、多层感知机和自编码器网络实施模型逆向攻击。他们认为模型输出的confidence 包含的输入数据信息，也可以作为输入数据恢复攻击的衡量标准。他们将模型逆向攻击问题转变为一个优化问题，优化目标为使逆向数据的输出向量与目标数据的输出向量差异尽可能地小，即假如攻击者获得了属于某一类别的输出

2023-03-04 10:38:45 1197 2

原创【论文阅读】 CVPR2022 || Investigating Top-k White-Box and Transferable Black-Box Attack

该论文发表于CVPR2022Abstract现有的研究已将top-1攻击成功率（）的限制确定为评估攻击强度的指标，但仅在白盒设置中进行了研究，而我们的研究将其扩展到更实用的黑盒设置：可转移攻击。据广泛报道，更强的I-FGSM传输比简单的FGSM传输更差，这导致人们普遍认为传输性与白盒攻击强度不一致。我们的工作挑战了这一信念，结果表明，对于一般的top-k ASR来说，更强的攻击实际上转移得更好，这由攻击后的兴趣等级（ICR）表示。为了增加攻击强度，从几何角度直观分析。

2023-02-25 10:21:50 643 1

原创【论文阅读】CVPR2022 || Segment and Complete: Defending Object Detectors against Adversarial Patch

目标检测在许多安全关键系统中起着关键作用。对抗性补丁攻击很容易在物理世界中实施，对最先进的目标检测器构成严重威胁。为对象检测器开发针对补丁攻击的可靠防御至关重要，但研究不足。在本文中，我们提出了分段和完整防御（SAC），这是一种通过检测和去除对抗性补丁来保护对象检测器免受补丁攻击的通用框架。我们首先训练一个补丁分割器，它输出补丁掩码，提供对抗补丁的像素级定位。然后，我们提出了一种自我对抗训练算法来增强补丁分割器的鲁棒性。此外，我们设计了一种鲁棒的形状完成算法，如果补丁分割器的输出在真实补丁掩码的一定汉明距离

2023-02-24 14:47:01 545 1

原创【论文阅读】CVPR2022||Stochastic Variance Reduced Ensemble Adversarial Attack for Boostingthe Adversarial

在这项工作中，我们将迭代集成攻击视为随机梯度下降优化过程，其中不同模型上梯度的方差可能导致局部最优值不佳。为此，我们提出了一种新的攻击方法，称为随机方差降低集成（SVRE）攻击，它可以减少集成模型的梯度方差并充分利用集成攻击。标准 ImageNet 数据集的实证结果表明，所提出的方法可以提高对抗性可迁移性，并显着优于现有的集成攻击。

2023-02-23 17:05:00 675 1

qq_45822394的博客