CW对抗样本生成算法 torch实现_cw对抗攻击(1)

,

1

]

n

\begin{aligned} & \text{minimize} \quad D(x, x + \epsilon) \ & \text{s.t.} \quad c(x + \epsilon) = t \ & \quad x + \epsilon \in [0, 1]^n \end{aligned}

​minimizeD(x,x+ϵ)s.t.c(x+ϵ)=tx+ϵ∈[0,1]n​

然而由于

C

(

x

ε

)

=

t

C(x+\varepsilon)=t

C(x+ε)=t是高度非线性的,因此现有的算法都难以直接求解,上面的式子,所以需要选择一种更适合优化的表达方式。即定义一个目标函数

f

f

f,当且仅当

f

(

x

ε

)

0

f(x+\varepsilon)\le0

f(x+ε)≤0时,

C

(

x

ε

)

=

t

C(x+\varepsilon)=t

C(x+ε)=t。我们可以用如下的一个式子来当做

f

f

f。

f

(

x

)

=

(

m

a

x

i

t

(

F

(

x

)

i

)

F

(

x

)

t

)

f(x’) = (max_{i\ne t}(F(x’)_i)-F(x’)_t)^+

f(x′)=(maxi=t​(F(x′)i​)−F(x′)t​)+
式中,

t

t

t表示定向攻击标签,

(

)

(*)^+

(∗)+表示

m

a

x

(

,

0

)

;

max(*,0);

max(∗,0);,

F

(

x

)

i

F(x’)_i

F(x′)i​表示当神经网络输入为

x

x’

x′时,产生类别是

i

i

i的概率;

Z

(

x

)

Z(x’)

Z(x′)表示softmax层前的输出,即

F

(

x

)

=

s

o

f

t

m

a

x

(

Z

(

x

)

)

F(x)=softmax(Z(x))

F(x)=softmax(Z(x));

l

o

s

s

F

,

t

(

x

)

loss_{F,t}(x’)

lossF,t​(x′)为交叉熵。
上面给出的

f

(

x

)

f(x)

f(x),

m

a

x

i

t

(

F

(

x

)

i

)

max_{i\ne t}(F(x’)_i)

maxi=t​(F(x′)i​)表示除了目标类别

t

t

t外,模型当前输入认为最有可能属于类别

i

i

i,输入类别

i

i

i的概率依旧小于类别

t

t

t的概率,认为此时攻击成功。换言之,就是当识别为类别

t

t

t的概率最大时,认为攻击成功。
所以可以对公式进行重新改写。

minimize

D

(

x

,

x

ε

)

s.t.

f

(

x

ϵ

)

0

x

ε

[

0

,

1

]

n

\begin{aligned} & \text{minimize} \quad D(x, x + \varepsilon) \ & \text{s.t.} \quad f(x + \epsilon) \le 0\ & \quad x + \varepsilon \in [0, 1]^n \end{aligned}

​minimizeD(x,x+ε)s.t.f(x+ϵ)≤0x+ε∈[0,1]n​
这个地方应该还是

x

ϵ

[

0

,

1

]

n

x + \epsilon \in [0, 1]^n

x+ϵ∈[0,1]n好一点,原书的公式不带上标n,不清楚为什么。
将上述的约束条件转换为目标函数,令距离度量函数

D

D

D为

L

p

L_p

Lp​范数,得到以下约束:

m

i

n

δ

p

c

f

(

x

ε

)

s

.

t

.

x

ε

[

0

,

1

]

n

min\quad||\delta||_p+cf(x+\varepsilon)\ s.t. \quad x+\varepsilon \in [0,1]^n

min∣∣δ∣∣p​+cf(x+ε)s.t.x+ε∈[0,1]n
其中的

δ

p

||\delta||_p

∣∣δ∣∣p​项即上面式子中的

D

(

x

,

x

ε

)

D(x, x + \varepsilon)

D(x,x+ε),这一项代表着对抗样本和原始样本的

L

2

L_2

L2​范数距离,也就是扰动,回顾对抗样本生成的目标:“生成样本与原始干净样本尽量的相似”,使这一项最小化,就保证了生成的对抗样本与原始样本尽可能地相似;

c

f

(

x

ε

)

cf(x+\varepsilon)

cf(x+ε)表示分类结果越符合目标结果越好,上面给出的

f

(

x

)

f(x)

f(x)中,如果

F

(

x

)

t

F(x’)_t

F(x′)t​越大(即分类为目标类的概率越大),那么

c

f

(

x

ε

)

cf(x+\varepsilon)

cf(x+ε)的值越小,也就为了满足生成对抗样本的第二个要求:生成样本确实能成功攻击模型。

由于对抗样本增加、减去剃度之后很容易超出

[

0

,

1

]

[0,1]

[0,1]的范围,为了生成有效的图片,需要对其进行约束,使得

0

x

i

δ

i

1

0\le x_i+\delta_i \le 1

0≤xi​+δi​≤1。对生成样本进行clip截断就可以将其约束在[0,1]的范围内,我们可以现在只需不断的进行迭代,找到最小值就可以生成对抗样本了。

然而,使用截断的思想,但会使攻击性能下降,CW算法提出的思想,将其映射到tanh空间,为此,CW算法作者引入了新的变量

w

w

w。

x

δ

=

1

2

(

t

a

n

h

(

w

)

1

)

δ

=

1

2

(

t

a

n

h

(

w

)

1

)

x

x+\delta = \frac{1}{2}(tanh(w)+1)\ \delta = \frac{1}{2}(tanh(w)+1)-x

x+δ=21​(tanh(w)+1)δ=21​(tanh(w)+1)−x

因为tanh函数的值域为

[

1

,

1

]

[-1,1]

[−1,1],所以

x

δ

x+\delta

x+δ的取值范围是

[

0

,

1

]

[0,1]

[0,1],这样就满足了约束条件。

下面给出已CW算法的

L

2

L_2

L2​范数攻击定义式

m

i

n

i

m

i

z

e

1

2

(

t

a

n

h

(

w

)

1

)

x

2

2

c

f

(

1

2

(

t

a

n

h

(

w

)

1

)

)

f

(

x

)

=

m

a

x

(

m

a

x

{

Z

(

x

)

i

:

i

t

}

Z

(

x

)

t

,

K

)

minimize \quad ||\frac{1}{2}(tanh(w)+1)-x||_2^2+cf(\frac{1}{2}(tanh(w)+1))\ f(x’)=max(max{ Z(x’)_i:i\ne t }-Z(x’)_t, -K)

minimize∣∣21​(tanh(w)+1)−x∣∣22​+cf(21​(tanh(w)+1))f(x′)=max(max{Z(x′)i​:i=t}−Z(x′)t​,−K)

f

f

f在式中添加了参数

K

K

K,改参数能够控制误分类发生的置信度。保证找到的对抗样本

x

x’

x′能够以较好的置信度被误分为类别

t

t

t。最初我自己看的时候不好理解,下面给出两个式子大家理解一下。

2.1 对于K的理解

先看第一种:

假设现在有

K

=

0.2

K=0.2

K=0.2,且假设此时

m

a

x

{

Z

(

x

)

i

:

i

t

}

Z

(

x

)

t

K

max{ Z(x’)_i:i\ne t }-Z(x’)_t \le -K

max{Z(x′)i​:i=t}−Z(x′)t​≤−K,即

f

(

x

)

=

m

a

x

(

m

a

x

{

Z

(

x

)

i

:

i

t

}

Z

(

x

)

t

,

K

)

=

K

f(x’)=max(max{ Z(x’)_i:i\ne t }-Z(x’)_t, -K)=-K

f(x′)=max(max{Z(x′)i​:i=t}−Z(x′)t​,−K)=−K,那么式可以变成

m

i

n

i

m

i

z

e

1

2

(

t

a

n

h

(

w

)

1

)

x

2

2

c

(

0.2

)

f

(

x

)

=

K

=

0.2

minimize \quad ||\frac{1}{2}(tanh(w)+1)-x||_2^2+c*(-0.2)\ f(x’)=-K=-0.2

minimize∣∣21​(tanh(w)+1)−x∣∣22​+c∗(−0.2)f(x′)=−K=−0.2
再看第二种:

假设现在有

K

=

0.8

K=0.8

K=0.8,且假设此时

m

a

x

{

Z

(

x

)

i

:

i

t

}

Z

(

x

)

t

K

max{ Z(x’)_i:i\ne t }-Z(x’)_t \le -K

max{Z(x′)i​:i=t}−Z(x′)t​≤−K,即

f

(

x

)

=

m

a

x

(

m

a

x

{

Z

(

x

)

i

:

i

t

}

Z

(

x

)

t

,

K

)

=

K

f(x’)=max(max{ Z(x’)_i:i\ne t }-Z(x’)_t, -K)=-K

f(x′)=max(max{Z(x′)i​:i=t}−Z(x′)t​,−K)=−K,那么式可以变成

m

i

n

i

m

i

z

e

1

2

(

t

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数网络安全工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年网络安全全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上网络安全知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注网络安全获取)
img

1

2

(

t

a

n

h

(

w

)

1

)

x

2

2

c

(

0.2

)

f

(

x

)

=

K

=

0.2

minimize \quad ||\frac{1}{2}(tanh(w)+1)-x||_2^2+c*(-0.2)\ f(x’)=-K=-0.2

minimize∣∣21​(tanh(w)+1)−x∣∣22​+c∗(−0.2)f(x′)=−K=−0.2
再看第二种:

假设现在有

K

=

0.8

K=0.8

K=0.8,且假设此时

m

a

x

{

Z

(

x

)

i

:

i

t

}

Z

(

x

)

t

K

max{ Z(x’)_i:i\ne t }-Z(x’)_t \le -K

max{Z(x′)i​:i=t}−Z(x′)t​≤−K,即

f

(

x

)

=

m

a

x

(

m

a

x

{

Z

(

x

)

i

:

i

t

}

Z

(

x

)

t

,

K

)

=

K

f(x’)=max(max{ Z(x’)_i:i\ne t }-Z(x’)_t, -K)=-K

f(x′)=max(max{Z(x′)i​:i=t}−Z(x′)t​,−K)=−K,那么式可以变成

m

i

n

i

m

i

z

e

1

2

(

t

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数网络安全工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年网络安全全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
[外链图片转存中…(img-CSDh4XeC-1712828174572)]
[外链图片转存中…(img-IZZodeKU-1712828174573)]
[外链图片转存中…(img-5TDZvRhM-1712828174574)]
[外链图片转存中…(img-wealexYS-1712828174574)]
[外链图片转存中…(img-i99poQQW-1712828174574)]
[外链图片转存中…(img-KXMFtZ6r-1712828174574)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上网络安全知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注网络安全获取)
[外链图片转存中…(img-GaENwd2v-1712828174575)]

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CW攻击是一种针对深度学习模型的白盒攻击方法,其目标是通过最小化对抗样本与原始样本之间的距离,来生成对抗样本,使得深度学习模型在对抗样本上的分类结果与原始样本的分类结果不同。 对于Animals 10数据集,可以使用Python中的Keras库来训练一个卷积神经网络(CNN)模型,然后使用对抗样本生成库(如advertorch)来执行CW攻击。 以下是一些实现步骤: 1. 导入Animals 10数据集,并将其分为训练集和测试集。 ```python from tensorflow.keras.datasets import animals10 (x_train, y_train), (x_test, y_test) = animals10.load_data() ``` 2. 对原始图像进行预处理,使其符合CNN模型的输入要求。 ```python import numpy as np x_train = np.expand_dims(x_train, axis=-1) / 255.0 x_test = np.expand_dims(x_test, axis=-1) / 255.0 ``` 3. 构建CNN模型,使用训练集进行训练。 ```python from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense model = Sequential([ Conv2D(32, (3, 3), activation='relu', input_shape=(64, 64, 1)), MaxPooling2D((2, 2)), Conv2D(64, (3, 3), activation='relu'), MaxPooling2D((2, 2)), Conv2D(128, (3, 3), activation='relu'), MaxPooling2D((2, 2)), Flatten(), Dense(128, activation='relu'), Dense(10, activation='softmax') ]) model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) model.fit(x_train, y_train, epochs=10, validation_data=(x_test, y_test)) ``` 4. 使用对抗样本生成库advertorch中的CW攻击方法来生成对抗样本。 ```python !pip install advertorch from advertorch.attacks import CW adversary = CW(model, targeted=False, c=1, kappa=0, verbose=False) x_test_adv = adversary.perturb(x_test, y_test) ``` 5. 使用对抗样本来评估模型的鲁棒性。 ```python test_loss, test_acc = model.evaluate(x_test, y_test, verbose=0) test_loss_adv, test_acc_adv = model.evaluate(x_test_adv, y_test, verbose=0) print(f"Test Accuracy: {test_acc:.4f}, Adversarial Test Accuracy: {test_acc_adv:.4f}") ``` 以上是一个简单的实现示例,但由于CW攻击是一种比较强大的攻击方法,因此在实际应用中,还需要对模型进行更加严格的测试和评估,以确保其鲁棒性和安全性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值