【论文笔记】Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning

该研究探讨了一种新型攻击——后门注入攻击,攻击者通过在训练数据中添加少量有毒样本,在身份验证系统中创建后门,以高成功率绕过系统。攻击者无需了解模型细节,只需注入有限的有毒实例。研究分析了不同的后门注入策略,并在YouTube Aligned Face数据集上使用DeepID和VGG-Face模型进行了评估。
摘要由CSDN通过智能技术生成

Abstract

  • 在这项工作中,我们考虑一种称为Backdoor Attack的新型攻击,其中攻击者的目标是在基于学习的身份验证系统中创建Backdoor,以便他可以通过利用Backdoor轻松绕过系统。
  • backdoor poisoning attacks 注射有毒样本到训练集
  • Assume
    1. 对模型和训练集未知
    2. 只能注射少量有毒样本
    3. 人类也难以注意到来获取隐蔽性
  • 注射五十个样本,获得90%的攻击成功率

I.Introduction

II.BACKDOOR POISONING ATTACKS

A. Backdoor Attack in a Learning System

Machine learning classification system

机器学习分类问题旨在从N对的训练数据集中学习从输入空间X到标签空间Y的映射D = {(xi,yi)∈X×Y | i = 1,…,N

Backdoor Adversary in a Learning System

  • A target Label y t y_t yt
  • 攻击者 根据( y t y_t yt, k k k, Σ \Sigma Σ)使得概率 Pr ⁡ ( f θ ( x b ) = y t ) \operatorname{Pr}\left(f_{\theta}\left(x^{\mathbf{b}}\right)=y^{\mathbf{t}}\right) Pr(fθ(xb)=yt) 高。把由backdoor key生成的数据认为是目标类。

B. Backdoor Adversary Using Data Poisoning

在这项工作中,我们定义并研究了一种弱和真实的攻击场景,称为BACKDOOR POISONING ATTACKS,攻击者可以通过在训练数据集中添加一些中毒样本来欺骗学习系统来进行backdoor attack,而无需直接访问实际的学习系统。

Backdoor poisoning adversary strategies.

  1. 生成中毒样本对 ( x i p , y i p ) \left(x_{i}^{\mathbf{p}}, y_{i}^{\mathbf{p}}\right) (xip,yip)。中毒实例,中毒样本
  2. 在测试阶段,生成backdoor 实例 Σ ( k ) \Sigma(k) Σ(k),使用Backdoor Key k和后门实例生成函数,然后由受害者模型将其错误分类为目标标签 y t y_t yt的概率很高

Threat model

无知识,中毒样本少

论文目标是探究不同 BACKDOOR POISONING 攻击策略。在试验阶段展示不同的攻击策略在不同测度的表现情况。

III. BACKDOOR POISONING ATTACK STRATEGIES

A. Input-instance-key strategies

  • 目标 Σ ( k ) \Sigma(k) Σ(k)能得到高概率。例子选一张脸,把这张脸把这张脸认为是目标。考虑脸的变动问题。 Σ r a n d ( x ) = { clip ⁡ ( x + δ ) ∣ δ ∈ [ − 5 , 5 ] H × W × 3 } \Sigma_{\mathrm{rand}}(x)=\left\{\operatorname{clip}(x+\delta) | \delta \in[-5,5]^{H \times W \times 3}\right\} Σrand(x)={clip(x+δ)δ[5,5]H×W×3}
    生成函数的例子。生成出来的图像在人眼看来一样,然而像素值的不同,所以是不同的实例。
    在这里插入图片描述
    把部分 Σ ( k ) \Sigma(k) Σ(k)放入训练集,然后在测试阶段测试其他 Σ ( k ) \Sigma(k) Σ(k)是否可以分类为目标标签。 Σ ( k ) \Sigma(k) Σ(k)与k是相似的。

B. Pattern-key strategies

key 是样式

  • 样式插入函数 Π ( k , x ) = x ′ \Pi(k, x)=x^{\prime} Π(k,x)=x, x是好样本
  1. Blended Injection strategy 像素叠加 Π α b l e n d ( k , x ) = α ⋅ k + ( 1 − α ) ⋅ x \Pi_{\alpha}^{\mathrm{blend}}(k, x)=\alpha \cdot k+(1-\alpha) \cdot x Παblend(k,x)=αk+(1α)x
    在这里插入图片描述
  2. Accessory Injection strategy 部分像素替换 Π a c c e s s o r y ( k , x ) i , j = { k i , j ,  if  ( i , j ) ∉ R ( k ) x i , j ,  if  ( i , j ) ∈ R ( k ) \Pi^{\mathrm{accessory}}(k, x)_{i, j}=\left\{\begin{array}{ll}{k_{i, j},} & {\text { if }(i, j) \notin R(k)} \\ {x_{i, j},} & {\text { if }(i, j) \in R(k)}\end{array}\right. Πaccessory(k,x)i,j={ki,j,xi,j, if (i,j)/R(k) if (i,j)R(k)
    在这里插入图片描述
  3. Blended Accessory Injection strategy 要变的部分就变,不变的部分不变
    Π α B A ( k , x ) i , j = { α ⋅ k i , j + ( 1 − α ) ⋅ x i , j ,  if  ( i , j ) ∉ R ( k ) x i , j ,  if  ( i , j ) ∈ R ( k ) \Pi_{\alpha}^{\mathrm{BA}}(k, x)_{i, j}=\left\{\begin{array}{ll}{\alpha \cdot k_{i, j}+(1-\alpha) \cdot x_{i, j},} & {\text { if }(i, j) \notin R(k)} \\ {x_{i, j},} & {\text { if }(i, j) \in R(k)}\end{array}\right. ΠαBA(k,x)i,j={αki,j+(1α)xi,j,xi,j, if (i,j)/R(k) if (i,j)R(k)
    在这里插入图片描述
    头两种方法得到两个正交目标,所以第三个目标可以把前两种目标结合在一起。

IV. EVALUATION SETUP

A. Dataset–YouTube Aligned Face dataset

B. Models–DeepID and VGG-Face

C. Metrics–1.攻击成功率 2.普通数据测试准确率 3.攻击实例分错类

V. 对不同攻击策略进行评估

VI. 对真照片进行评估–如戴墨镜的照片,不是正脸的照片等等

VII. EVALUATION OF POTENTIAL (FAILING) DEFENSES

  1. 测量训练数据的标签分布
  2. 异常值检测器,通常用于检测中毒数据
  3. 使用辅助原始数据进行防御
    保留VGG-FACE原来的前37层参数,只训练最后的softmax层。
Poison frogs! targeted clean-label poisoning attacks on neural networks”这是一个关于对神经网络进行有针对性的干净标签中毒攻击的研究项目。在这种攻击中,研究人员通过修改训练数据集中的特定标签,以欺骗神经网络模型以误分类输入样本。 干净标签中毒攻击是一种隐蔽的攻击方式,因为攻击者不需要修改图像本身或添加任何可见的攻击标记。相反,他们通过对训练数据集进行精心设计的修改,使神经网络在应用中出现错误分类。这种攻击方法可能会导致严重后果,例如在自动驾驶汽车或安全系统中造成事故或功能失效。 这个项目的目的是研究这种攻击方法的可行性和效果,并提出对抗这种攻击的解决方案。研究人员首先对训练数据集进行修改,以使特定类别的图像被误分类为其他类别。然后,他们使用已经训练好的神经网络模型,通过修改训练数据集中的特定图像标签,使模型在测试阶段错误地将这些特定图像分类为不同的类别。 结果表明,即使在高性能的神经网络上进行干净标签中毒攻击也是可行的。这些攻击可以在不影响模型在其他正常输入上性能的情况下,误导模型对特定图像的分类。这使得攻击者能够操纵模型的行为,甚至可能导致系统的安全漏洞和错误决策。 为了对抗这种攻击,研究人员提出了一种改进的训练策略,称为“防御机制”。这种方法可以增强模型对干净标签中毒攻击的鲁棒性,并提供了一种有效的方法来检测和解决这种攻击。 总体而言,这个项目揭示了干净标签中毒攻击在神经网络中的潜在威胁,并提供了对抗这种攻击的解决方案。这有助于进一步加强神经网络模型在面临安全挑战时的鲁棒性,并推动相关领域的研究和技术发展。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值