对抗样本4——ILLCM(Iterative Least-Likely Class Method)

本文探讨了BIM作者提出的迭代最少类方法(ILLCM),一种旨在生成误导模型对特定目标类置信度的针对性攻击。ILLCM通过最小化预测概率,降低对抗训练对(x,t)的分类损失,展示了对抗样本生成的策略和过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 BIM的作者还提出了一种有针对性攻击变体,称为Iterative Least-Likely Class Method(ILLCM),其目标是生成一个对抗样本,该样本被错误地分类为特定的目标类 t t t。事实上,ILLCM将原始分类器选择的可能性最小的类为目标,即 t = arg ⁡ min ⁡ f ( x ) t = \arg \min f(x) t=argminf(x)。相应的迭代更新公式如下所示: x i + 1 ′ = Clip ⁡ ϵ { x i ′ − α ⋅ sign ⁡ ( ∇ x L ( x i ′ , t ) ) }  for  i = 0  to  n ,  and  x 0 ′ = x x_{i+1}^{\prime}=\operatorname{Clip}_{\epsilon}\left\{x_{i}^{\prime}-\alpha \cdot \operatorname{sign}\left(\nabla_{x} \mathcal{L}\left(x_{i}^{\prime}, t\right)\right)\right\} \text { for } i=0 \text { to } n, \text { and } x_{0}^{\prime}=x xi+1=Clipϵ{xiαsign(xL(xi,t))} for i=0 to n, and x0=x除了交叉熵损失中的预测类别从真实标签 y y y变为对抗目标 t ≠ y t \neq y t=y。无目标攻击BIM和FGSM攻击增加了原始分类器的训练损失,有目标攻击ILLCM减少了对抗训练对 ( x , t ) (x,t) (x,t)的分类损失,以误导模型对目标类 t t t的置信度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

道2024

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值