Backdoor Attack with Imperceptible Input and Latent Modification

Backdoor Attack with Imperceptible Input and Latent Modification

现有防御发现后门趋于在特征空间或者latent space留下痕迹

本文方法Wasserstein Backdoor (WB) Attack:最小化干净数据和后门数据的潜在表示之间的Wasserstein distance

针对那些依赖在latent space中区别干净样本和投毒样本的防御(characterizing后门图像和干净图像之间的特征或潜在表示的差异)。

回顾

在推理阶段的对抗样本攻击归类为evasion attack

Adversarial examples are not easily detected: Bypassing ten detection methods.

训练过程投毒:BadNets;Neural trojans;clean-label poisoning

之前的工作已经证明,后门图像和干净图像在潜在空间的激活不同。

训练阶段:AC检测潜在空间的聚类和spectral Signature检测潜在表示的协方差的光谱

测试阶段:

A unifified framework for analyzing and detecting malicious examples of dnn models.

Deep probabilistic models to detect data poisoning attacks

CleaNN:利用 concentration inequality检测异常重构,在输入进入模型之前抑制。

贡献

  • 提出一种非凸约束优化问题,使投毒样本和干净样本的潜在分布难以区别。利用Wasserstein的变体sliced-Wasserstein distance。
  • sliced-Wasserstein distance:利用训练好的分类器的判别方向,而不是从unit sphere中随机取样本
  • 实验证明就latent indistinguishability而言,WB方法的性能比现有SOTA好

威胁模型

假设后门注入是在训练中执行的,并且对手可以访问包括结构和参数在内的模型。本文提出在输入空间中使用难以感知的扰动来制作有毒图像,清除后门攻击在中毒分类器的潜在空间中留下有形的痕迹。

方法

Preliminaries

f θ :    X → C X 是输入, C 是目标类 θ 是学习到的参数 数据集 S   =   { ( x i , y i )    :   x i ∈ X ,    y i ∈ C , i = 1 , ⋯ N } 干净样本 ( x , y ) 后门样本 ( T ( x ) , η ( y ) ) T 是后门注入函数, η 是目标标签函数 干净样本和后门样本训练后的 f 满足: f ( x ) = y ,     f ( T ( x ) ) = η ( y ) a l l − t o − o n e :   目标标签一致, η ( y ) = c ; a l l − t o − a l l :   目标标签移动一位 η ( y ) = ( y + 1 ) m o d ∣ C ∣ \begin{align} & f_\theta:\;X \rightarrow C \\ & X是输入,C是目标类\\ & \theta 是学习到的参数\\ & 数据集S\,=\, \{ (x_i,y_i)\;:\, x_i \in X,\;y_i \in C,i=1, \cdots N\} \\ & 干净样本(x,y) \\ & 后门样本(T(x),\eta(y)) \\ & T是后门注入函数,\eta是目标标签函数 \\ & 干净样本和后门样本训练后的f满足:f(x)=y, \; \, f(T(x))=\eta (y) \\ & all-to-one:\, 目标标签一致,\eta (y)=c; \\ & all-to-all:\, 目标标签移动一位\eta (y)=(y+1) mod |C| \\ \end{align} fθ:XCX是输入,C是目标类θ是学习到的参数数据集S={(xi,yi):xiX,yiC,i=1,N}干净样本(x,y)后门样本(T(x),η(y))T是后门注入函数,η是目标标签函数干净样本和后门样本训练后的f满足:f(x)=y,f(T(x))=η(y)alltoone:目标标签一致,η(y)=c;alltoall:目标标签移动一位η(y)=(y+1)modC

Learning to backdoor

学习参数 θ : θ ∗   =   a r g    m i n θ ∑ i = 1 N ζ ( f θ ( x i ) ,   y i ) 产生 p o i s o n i m a g e : T ξ ( x ) = x + g ξ ( x ) ∣ ∣ g ξ ( x ) ∣ ∣ ∞ ≤ ϵ    ∀ x g ξ 添加不可感知的噪声,把生成函数设置成 a u t o e n c o d e r 或者 U − N e t 架构 学习参数 ξ : ξ ∗   =   a r g    m i n ξ ∑ i = 1 N ζ ( f θ ( T ξ ( x i ) ) ,   η ( y i ) )    + R ϕ ( F c , F b ) R ϕ 是正则化约束, F c 和 F b 分别是干净表示和投毒表示的正则约束 m i n θ ∑ i = 1 N α ζ ( f θ ( x i ) , y i )   +   β ζ ( f θ   ( T ϵ ∗ ( θ ) ( x i ) ) ,   η ( y i ) ) α 和 β 控制干净和后门损失信号的混合程度 \begin{align} & 学习参数 \theta :\theta^*\,=\, \underset{\theta}{arg \; min} \sum_{i=1}^{N} \zeta(f_{\theta}(x_i),\,y_i) \\ & 产生poison image: T_{\xi}(x)=x+g_{\xi}(x) & ||g_{\xi}(x)||_\infty \leq \epsilon \;\forall x \\ & g_{\xi}添加不可感知的噪声,把生成函数设置成autoencoder或者U-Net架构 \\ & 学习参数\xi: \xi^*\,=\, \underset{\xi}{arg \; min} \sum_{i=1}^{N} \zeta(f_{\theta}(T_{\xi}(x_i)),\,\eta (y_i)) \;+R_{\phi}(F_c,F_b)\\ & R_{\phi}是正则化约束,F_c和F_b分别是干净表示和投毒表示的正则约束 \\ & \underset{\theta}{min} \sum_{i=1}^{N}\alpha \zeta(f_{\theta}(x_i),y_i) \,+\, \beta \zeta(f_{\theta} \, (T_{\epsilon*(\theta)}(x_i)), \, \eta(y_i)) \\ & \alpha 和\beta 控制干净和后门损失信号的混合程度\\ \end{align} 学习参数θ:θ=θargmini=1Nζ(fθ(xi),yi)产生poisonimage:Tξ(x)=x+gξ(x)gξ添加不可感知的噪声,把生成函数设置成autoencoder或者UNet架构学习参数ξ:ξ=ξargmini=1Nζ(fθ(Tξ(xi)),η(yi))+Rϕ(Fc,Fb)Rϕ是正则化约束,FcFb分别是干净表示和投毒表示的正则约束θmini=1Nαζ(fθ(xi),yi)+βζ(fθ(Tϵ(θ)(xi)),η(yi))αβ控制干净和后门损失信号的混合程度∣∣gξ(x)ϵx

Wasserstein Regularization

干净的和后门的潜在表示是分离的或分布的不同的————通过正则化约束来最小化这种分布差异————由于我们不能假设这两个潜在分布有共同的支持度,或者它们的密度函数是已知的,所以常用的发散(KL和JSD),很难实现分布差异最小化————提出Wasserstein-2 distance

在这里插入图片描述

边缘概率度量µ和v分别是由干净数据和中毒数据的潜在表示的经验样本Fc和Fb定义

设qµ和qv为µ是μ和v对应的密度函数,

一维μ和v的Wasserstein-2 距离:
在这里插入图片描述

灵感来源:Generative modeling using the sliced wasserstein distance(CVPR2018)

Generalized sliced wasserstein distances(NeurIPS2019)

sliced-Wasserstein distance:SWD
在这里插入图片描述

切片随机性带来计算复杂度。在大多数问题中,SWD需要大量的随机方向,通常在1000到10000之间,以提供距离的可靠估计。在DSWD中,随机方向的数量被固定为可能的输出标签的数量,这对于许多分类问题通常是很小的。

提出投影送入输出层来代替SWD的均匀线性投影。当潜在空间是分类器的倒数第二层时,投影:DSWD
在这里插入图片描述
论文证明了DSWD是潜在分布的有效距离度量

结论:现有的防御方法选择了神经网络的倒数第二层。作为进行防御分析差异的空间。论文提出的DSWD距离是该空间中概率测度的有效距离函数。

Optimization

f与T固定一个,更新另一个,交替进行——在干净数据上性能不够好——MIST只需要几轮,而CIFAR10,GTSRB、Tiny数据集上需要几百轮。————训练一定epochs后,固定T,仅训练f
思想来源LIRA

Results
attack baseline

在这里插入图片描述
在这里插入图片描述

defense baseline
  • activation clustering: 在有毒分类器中,干净样本和后门样本的潜在表示形成单独的聚类,使用K-means等聚类方法很容易检测到。本文对WB提出的优化可以减少这种差异。
    在这里插入图片描述

对比Adversarial embedding,BadNets和WaNet对这种检测方法的鲁棒性

  • spectral signature:是一种样本过滤防御,找到数据的潜在向量的协方差矩阵的最大奇异值。然后计算每个样本与这个奇异值的相关性得分,并将那些具有离群值得分的样本标记为后门样本。

    本文方法的干净样本和后门样本得分近似
    在这里插入图片描述

  • Neural Cleanse:寻找每个可能的目标标签的最佳patch模式,然后,通过异常指数来量化最优的后门触发模式是否是一个离群值。异常指数大于2是后门模型。WaNet和WB对这种防御有好的鲁棒性。

  • STRIP:给定分类器和输入图像,首先扰动图像,并根据这些扰动图像的预测熵(即预测是否一致)确定模型中后门的存在。STRIP未能检测到WB产生的后门样本

在这里插入图片描述

conclusion

Wasserstein Backdoor学习一个触发函数,它会向输入图像添加视觉上难以察觉的噪声。通过sliced Wasserstein distance最小化干净图像和后门图像在latent space的表示之间分布差异。

.

补充:

数据集的问题:都是小数据集。

防御鲁棒性:只打破AC和signature的假设

思想不是首发:Adversarial Embedding:通过对抗正则化最小化干净样本和投毒样本之间latent distribution的距离。

干净图像和后门图像在latent space的表示之间分布差异。

.

补充:

没有测试大规模数据集,和vit等其他模型架构;
防御鲁棒性:打破AC和spectral signature的假设,对其他SOTA防御没有验证。

思想首发:Adversarial Embedding:通过对抗正则化最小化干净样本和投毒样本之间latent distribution的距离。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值