A Taxonomy and Survey of Attacks Against Machine Learning----针对机器学习的攻击的分类和调查

最新推荐文章于 2024-05-10 17:00:02 发布

Mars_prime

最新推荐文章于 2024-05-10 17:00:02 发布

阅读量47

点赞数

文章标签：机器学习分类人工智能

本文链接：https://blog.csdn.net/Mars_prime/article/details/134424404

版权

大多数机器学习方法都假设其环境是良性的。然而，这种假设并不总是成立，因为恶意修改训练（中毒攻击）或测试数据（逃避攻击）通常对对手有利。鉴于机器学习应用程序在社会中的增长和渗透，此类攻击可能是灾难性的。因此，需要保护机器学习的安全，使其能够在对抗性情况下安全采用，例如垃圾邮件过滤、恶意软件检测和生物特征识别。本文介绍了针对使用机器学习的系统的攻击的分类和调查。它组织了对抗性机器学习的知识体系，以确定来自不同领域的研究人员可以做出贡献的方面。该分类法识别出具有共同关键特征的攻击，因此可以通过相同的防御方法来解决。因此，所提出的分类法使人们更容易理解现有的攻击格局，以开发防御机制，而本次调查中并未对此进行研究。该分类法还可用于识别可导致对抗性机器学习领域内新研究领域的开放问题。

1. Introduction
----
一、简介

近年来，机器学习 (ML) 取得了巨大进步，其使用在许多新兴应用中已变得无处不在，这些应用可以在本地、边缘或云端收集和处理数据。这些数据可用于训练机器学习模型，而机器学习模型又可用于执行预测或支持医疗保健 [1]、入侵检测 [2]、欺诈检测 [3]、自动驾驶车辆 [4] 等领域的决策。以及许多其他应用[5-7]。

然而，机器学习技术的迅速普及使得它们成为那些想要出于恶意目的操纵此类机制的对手的有吸引力的目标[8]。所有机器学习系统都使用数据集进行训练，这些数据集被认为对所讨论的主题具有代表性和可信度，从而能够构建对感兴趣现象的有效系统感知。然而，恶意行为者可以通过针对训练数据或强制模型达到所需的输出（例如异常事件的错误分类）来影响此类方法的决策算法。这些类型的攻击分别称为中毒和逃避攻击 [9]，使对手能够显着降低整体性能，导致有针对性的错误分类或不良行为，并插入后门和神经木马 [8, 10]。

对抗性机器学习（AML）位于机器学习和网络安全的交叉点，它通常被定义为针对对抗性对手的有效机器学习技术的研究[10]。例如，黄等人。 [11]提出了一种新方法，通过生成对抗性示例作为促进攻击检测的中间步骤，从监督数据中学习鲁棒分类器。 AML 可应用的代表性应用示例包括入侵检测、垃圾邮件过滤、视觉识别和生物识别身份验证。

缺少的是对所有可能的 AML 攻击向量（即它们的配置、执行、策略、影响等）的深入调查，这可以对针对 ML 管道各个阶段的攻击和威胁进行详细的分类。这可以帮助设计和实施更合适的缓解对策。目前，仅发布了少量相关分类法和调查。当对手选择转移分布和损失函数时，对抗行为也作为在线学习马尔可夫决策过程 (MDP) 的一部分进行了研究 [12, 13]。

1.1.动机与贡献

受这些问题的推动，本次调查的目的是对针对整个机器学习管道的恶意攻击类型提供完整的分析和分类。在这种背景下，我们通过提供新的、全面的分类来解决早期分类法的自然局限性，涵盖旧的（2011 年之前）、新的（2011 年之后）以及未来可能出现的潜在研究领域。对抗性机器学习的前景。我们使用这种分类法作为对不同可用方法进行调查和分类的基础，特别强调过去两年提出的方法，并确定哪些领域可以从进一步的研究中受益匪浅。综上所述，本文的贡献可概括如下：

(i) 对抗性机器学习方法特征的综合分类（第 2 节），

(ii) 根据拟议的分类法，针对上述应用领域对现有对抗性机器学习方法的分类和分类进行系统审查（第 3 节）

(iii) 确定进一步研究可产生重大影响的未决问题和具体领域（第 4 节）。

通过这项调查，我们的主要目标是阐明这种新兴的攻击范式，以便将其用作设计更强大的对策的基线；因此，机器学习可以提供增强的安全和隐私功能，从而进一步加速数据驱动的洞察和知识获取。

1.2.相关工作

从网络安全的角度来看，有多种途径可以对基于机器学习的系统产生不利影响，例如针对其数据收集或传输，以及操纵其开发的模型或其输入（图 1）。值得注意的是，对于这样一个具有广泛社会影响的研究领域，仅发表了少量的相关分类法和调查。 2011年，黄等人。 [10] 发布了对抗性机器学习的早期分类法，包括影响力、安全违规和特殊性的类别。这为攻击分类提供了良好的基础，但多年来，它自然而然地变得越来越无法涵盖新的方法。

针对机器学习的对抗性攻击已在各种应用中成为现实。入侵检测是一种非常重要的防御机制，攻击者可以通过增加误报或误报和漏报来绕过它。此外，鉴于针对电子邮件分类的攻击不断增长，垃圾邮件过滤的重要性也日益突出，这使其成为研究人员的另一个关键用例。此外，深度神经网络的发展和自动驾驶汽车的激增使视觉识别成为对手攻击机器学习的一个有吸引力的领域（例如，[14-20]）。

最近舒迈洛夫等人。 [21]发表了一项工作，他们使用微妙而多样的禁忌行为来检测对抗性攻击，并使分类器对它们更加鲁棒。接受调查的大多数论文都调查了该领域内的攻击，其中大多数都与混淆机器学习系统的扰动样本有关。然而，在各种其他应用（或它们的组合）中，例如推荐系统、自回归预测模型、生物识别系统、信用卡欺诈检测系统，已经注意到对抗性攻击。还有一些针对机器学习的不同应用程序的攻击，或者最初是为一个应用程序创建的攻击，但可能在其他各种应用程序中同样有效。

这不是对抗性机器学习领域的第一次调查，但现有文献和我们的论文之间存在显着差异。所提出的分类法不仅提供了一种直接的方法来对研究各种机器学习攻击的论文进行分类，而且还是迄今为止文献中提出的指南。然而，它提供了一种新的视角，通过引入与每个攻击特征唯一关联的多个阶段，来分解用于对不同攻击进行分类的各种类型的特征。

周等人的调查。 [22]特别关注以博弈论方式模拟对抗性机器学习行为的相对少数的方法，其中玩家是学习系统和攻击它的对手。其他调查强调了受影响的应用程序的特定特征。例如，阿赫塔尔等人。 [23]解决了针对计算机视觉中深度学习的对抗性攻击，研究了针对自动编码器和生成模型、循环神经网络、深度强化学习、语义分割和对象检测以及面部属性的攻击。此外，Zhang等人[24]专注于深度神经网络（DNN）和人工智能，研究生成对抗性的方法以及对策。 Duddu [25] 假设对手的目的是泄露机器学习处理的敏感信息以及有关系统架构的信息。他们描述了一个网络战测试平台，用于测试各种攻击防御策略的有效性。

试图弥合理论与实践之间的差距，通过针对真实系统的对抗性示例，将实际攻击方案的威胁模型形式化。最近，比吉奥等人。 [27] 对过去十年对抗性机器学习积极研究的演变进行了非常有用的技术回顾，而 Yuan 等人。 [28]专注于用深度神经网络构建的模型中的对抗性攻击和防御，提出了攻击方法的分类法。我们工作的不同之处在于，我们提出了一种分类法，对提出针对机器学习的攻击的不同论文进行分类，以统一该领域。我们的工作可以作为创建整体防御框架的垫脚石，也可以激励创建针对机器学习攻击的防御分类法。

1.3.攻击模型

我们在本文中考虑的攻击模型实现了以下类型的攻击：中毒和逃避。这些模型的高级目标是最大化分类的泛化误差，并可能误导决策系统以获得所需的恶意测量值。如 [29] 中所述，使用机器学习的系统旨在找到将可观察事件映射到不同类别的假设函数 f。

让我们考虑一个监视网络行为并执行基于异常的入侵检测的系统。此行为的一个实例是使用效用函数 f 分类为正常或恶意的事件。让我们假设输入空间 X = {xi} 和输出空间 Y = {yi}，其中 xi 是一个事件，yi 是由 f 确定的该事件的输出，即 f (xi) = yi。我们假设系统已经使用形成训练集 S 的 N 个样本进行了训练，并且已经导出了系统感知，用 ˆ y 表示。训练阶段结束后，系统接收来自实际环境的新事件并对它们进行分类。我们将其定义为系统的运行时阶段。对于每个新事件 ˆ xi，f 给出新的输出 f (ˆ xi) = ˆ yi。我们有以下案例：

如果 xi 是恶意的并且系统无法识别它（误报），则会给系统造成损失 l。
如果 ˆ xi 是恶意的并且系统识别出它是恶意的（真阳性），或者它不是恶意的，那么系统不会有任何损失。
如果 ˆ xi 不是恶意的并且系统将其识别为恶意的（误报），则存在损失 λ。

攻击者的目标是通过最大化 |f (ˆ xi) − yi| 来最大化攻击对系统的影响。因此，防御系统面临的挑战是找到一个使损失最小化的效用函数，以 f (ˆ xi) 与实际输出 yi 的距离来衡量。该函数可以是线性的或非线性的，并且在公式中更加复杂，如[30]中所示。

规避攻击：攻击者可以在测试阶段对分类进行规避攻击，从而产生错误的系统感知。在这种情况下，攻击者的目标是对某些数据进行错误分类，例如保持隐秘或模仿某些理想的行为。对于基于网络异常的检测，可以通过对攻击有效负载进行编码来躲避入侵检测系统 (IDS)，使得数据的目的地能够对其进行解码，但 IDS 不会导致可能的错误分类。因此，攻击者可以危害 IDS 发现的目标系统。攻击者的另一个目标可能是导致系统概念漂移，导致系统持续重新训练，从而显着降低其性能[31]。

中毒攻击：对手可以毒害训练数据集。为了实现这一点，对手派生并注入一个点来降低分类精度[32]。这种攻击能够在训练期间完全扭曲分类函数，从而允许攻击者以任何她希望的方式定义系统的分类。分类误差的大小取决于攻击者选择毒害训练的数据。对于上述示例，攻击者可能能够创建异常网络层协议行为的数据集，并以标记的攻击数据集作为基本事实来训练基于异常的入侵检测系统。因此，检测器将无法识别针对该网络层协议的网络攻击，威胁底层系统的安全。这种攻击可以定制为对基于签名的入侵检测系统的质量产生重大影响，该系统负责检测感染系统或基础设施的恶意软件等。

例如，此类特别阴险的攻击是后门或特洛伊木马攻击，攻击者通过插入后门密钥来小心地毒害模型，以确保模型在标准训练数据和验证样本上表现良好，但仅在后门密钥时才会出现错误行为存在[33]。因此，一旦部署模型，攻击者就可以通过引入后门密钥来选择性地使模型行为异常。例如，考虑自动驾驶汽车辅助驾驶的情况：每当停车标志上放置了特定标记时，后门可能会导致模型将停车标志错误分类为速度限制。然而，该模型在没有此标记的停车标志上将按预期执行，这使得后门难以检测，因为用户事先不知道后门密钥。

2. 攻击分类

虽然针对机器学习的攻击的实施细节可能有很大差异，但它们的各个步骤可以大致分为两个不同的阶段：(i) 准备和 (ii) 表现，如图 2 所示和下面详细介绍的。在本节的其余部分中，我们将讨论不同的功能。

2.1.准备

在此阶段，攻击者识别他们的资源并收集准备攻击计划所需的情报。在这里，决定对抗性机器学习方法特征的是攻击者所需的知识，以及目标机器学习技术的类型以及攻击者是否具有战略性，即他们是否使用博弈论技术。因此，我们讨论以下功能：

攻击者知识：在这里，我们采取简化的观点，攻击者可能知道（K1）基本事实，（K2）学习算法，或两者，从而导致以下攻击者知识类别：

– 黑盒攻击： ØK1 ∧ ØK2。
– 灰盒攻击：K1 ∨ K2。
– 白盒攻击：K1 ∧ K2。

根据[27]，攻击者知识可以指（i）训练数据，（ii）特征集，（iii）机器学习算法以及训练期间最小化的目标函数以及（iv）任何训练参数（如果适用）。

2.算法：文献中针对了大量机器学习技术。值得注意的是，在图像识别领域中常见的是 DNN 和卷积神经网络 (CNN)，而在垃圾邮件检测中，更常见的是朴素贝叶斯、支持向量机 (SVM) 和逻辑回归 (LR)。其他技术，例如 K 均值、K 最近邻 (KNN)、线性回归、社区发现和奇异值分解，通常用于恶意软件检测、生物特征识别以及网络故障和安全漏洞检测领域。出于此分类的目的，我们根据以下用途的机器学习算法对技术进行了分类：i) 聚类、ii) 分类或 iii) 混合方式。

3.博弈论：对抗性机器学习通常配备有战略元素，在博弈论术语中，防御者是机器学习分类器，攻击者是旨在污染训练数据集等的数据生成器。两者都在可视为非合作博弈中战略性地选择自己的行动[34]。对手的目的是混淆分类或聚类与相关成本，例如转化过程或被检测到的概率。另一方面，防御者会因错误分类样本而付出代价。博弈论对于防御者的重要性在于使分类器更加了解对抗性行为并对其产生更强的抵抗力。

2.2.表现

这是对手对机器学习系统发起攻击的阶段。攻击表现在很大程度上取决于准备阶段收集的情报，可以根据以下特征来表征：

攻击特异性：这是指攻击者针对的数据点的范围[29, 35]。 Barreno 等人最近的调查中也提到了错误特异性。 [27]。 – 有针对性：攻击的重点是特定样本（例如，被错误分类为合法的特定垃圾邮件）或一小组样本。– 不加区别：对手攻击非常普遍的一类样本，例如“任何漏报”（例如，最大化被错误分类为合法的垃圾邮件的百分比）。
攻击类型：这是指机器学习系统如何受到攻击的影响[29, 35]。 – 中毒：中毒攻击通过影响训练数据来改变训练过程。 – 逃避：逃避攻击利用错误分类，但不影响训练（例如学习者或离线分析，以发现信息）。
攻击模式：对抗性机器学习的原始假设（在大多数相关文献中仍然采用）是攻击者独立工作（非共谋情况）。另一种选择是，不同的共谋攻击者可以进行协作，不仅可以掩盖他们的踪迹，还可以提高效率。

2.3.攻击评估

攻击表现形式的输出主要以其对机器学习方法准确性的影响的性质为特征。每篇论文都通过采用不同的方法和指标来量化和表达这种影响来评估这种影响。

评估方法：这项工作的目标是通过采用经过彻底评估的方法，帮助研究人员和开发人员提高其机制对抗对抗性机器学习的弹性。我们根据所提出的方法是否经过分析、模拟或实验评估来对相关文献进行分类。
性能影响：对抗性机器学习的主要目的是降低基于机器学习的分类或聚类过程的性能。对于分类问题，这可以解释为误报、漏报或两者兼有的增加。对于聚类问题，目标通常是降低准确性。
误报：在垃圾邮件检测等分类问题中，有两种状态（垃圾邮件或正常），攻击者的目的可能是使目标系统将许多正常电子邮件错误地标记为垃圾邮件。这将导致用户丢失电子邮件。 – 漏报：使用相同的示例，如果攻击者旨在增加漏报，那么许多垃圾邮件将通过用户的过滤器。 – 误报和漏报：在这里，攻击者的目的是通过让垃圾邮件通过并过滤掉正常电子邮件，从而降低用户对其垃圾邮件过滤系统的整体信心。 – 聚类精度降低：与分类相比，聚类的精度评估起来不太直接。在这里，我们将精度的普遍降低作为聚类算法攻击者的总体目标。

3. 对机器学习的对抗性攻击

在本节中，我们将详细介绍针对部署机器学习的应用程序的不同对抗性攻击。我们根据应用领域对各种文章进行了分组，以便清楚地了解对抗性机器学习在每个领域是如何发展的。

3.1.入侵检测

3.1.1.朴素学习算法

巴雷诺等人。是第一个给出相关属性（例如攻击影响力和特异性）来分析对机器学习系统的攻击的人。在[29]中，他们提供了一个来自入侵检测系统领域的例子，其中对手可以通过恶意错误训练学习IDS系统来发起白盒中毒攻击，从而使分类器（分类）无法确定特定样本是否(targeted) 是否是恶意的（同时导致误报和漏报）。

3.1.2.支持向量机（SVM）

比吉奥等人。 [38]创建了一个简单的算法来规避具有可微判别函数的分类器。他们研究了与 PDF 恶意软件检测相关的实际应用程序的攻击有效性，并凭经验表明，仍然可以通过针对 PDF 恶意软件发起灰盒到白盒攻击来规避非常流行的分类算法（特别是 SVM 和神经网络）（规避攻击）。即使对手只能从小代理数据集中学习分类器（分类）的副本，也具有高概率的分类器。攻击者的目标是操纵单个样本进行错误分类，从而导致误报率增加。

3.1.3.最小绝对收缩和选择算子 - Elastic Net

肖等人。 [39]还进行了PDF恶意软件检测的实验，并且是最早提出一个框架来对嵌入式特征选择算法的不同攻击进行分类的框架之一，该框架使用先前提出的中毒和规避攻击模型来保证分类和聚类算法的安全性（分类和聚类））。在这些设置中发起灰盒到白盒攻击的攻击者的目标是以有针对性和不加区别的方式毒害（中毒攻击）训练数据，以便选择错误的特征子集。作者导出了一种中毒特征选择算法，该算法会增加误报和漏报，或导致聚类准确度降低。

3.1.4.谱聚类 - 社区发现和 node2vec

陈等人。 [40]关注网络检测中使用的基于图的检测系统中可能出现的另一个问题。他们设计了两种新颖的灰盒和白盒攻击，由对手发起，这些攻击使用有针对性的噪声注入（中毒）和针对图聚类或嵌入技术的小型社区攻击，其主要目的是避免检测（增加漏报）。后者包括社区发现、奇异值分解和node2vec，它们是分类和聚类的结合。噪声注入是有针对性的，而小社区攻击是不加区别的，因为攻击者以随机方式选择要操纵的图节点。

3.1.5。主成分分析

鲁宾斯坦等人。 [41]专注于通过聚类检测骨干网络中的异常，并考虑使用主成分分析（PCA-子空间方法）的新的煮青蛙攻击方案模型。在这些中毒攻击方案中，攻击者对学习者执行黑盒到白盒攻击，缓慢地毒害训练数据，但在数周内不断增加而未被发现。该攻击侧重于系统的训练阶段，并增加误报率和漏报率，其最终目标是导致拒绝服务。这项工作假设了两种情况：（i）当链路上的流量超过参数（目标）时，攻击者执行链路中毒，以增加流量方差；（ii）攻击者在任何链路上注入流量（不加区别）。

3.1.6. Support Vector Machine - Bayesian - Decision Trees and Random Forests
----
3.1.6。支持向量机 - 贝叶斯 - 决策树和随机森林

王等人。 [42] 对机器学习模型（聚类）在检测恶意众包（也称为众包）的有效性进行了实证研究。他们评估了一类强大的白盒中毒攻击，其中对手注入：（i）精心选择的数据（有针对性的）到训练数据中，以大大降低检测器的效率，增加误报和漏报率；或 (ii) 草皮等级的随机正态帐户（不加区别）。此外，作者研究的逃避攻击是有针对性的，因为只有个别实例（以“工人”为代表）可以被改变。

3.1.7. Convolutional Neural Networks (CNN)
----
3.1.7.卷积神经网络 (CNN)

在应用于二进制恶意软件检测的深度神经网络的背景下，Demetrio 等人。 [43]提出了一种针对名为 MalConv 的卷积神经网络的分类能力的黑盒规避攻击[44]。他们将集成梯度技术应用于恶意软件程序。他们的方法选择最接近二进制嵌入空间的字节，旨在增加规避概率，从而增加漏报）。

3.2. Spam Filtering
----
3.2.垃圾邮件过滤

3.2.1.线性分类器

Lowd 和 Meek [45] 专注于垃圾邮件检测和朴素贝叶斯的使用，定义了对抗性分类器逆向工程 (ACRE) 模型。在 ACRE 中，攻击者通过向分类器发送成员资格查询来针对分类器（分类）发起灰盒规避攻击。通过攻击系统的测试阶段，攻击者的目标是确定特定实例是否是恶意的。此外，该攻击旨在通过将垃圾邮件分类为良性邮件来提高误报率。作者假设攻击者在所有将攻击描述为不加区别的情况下优化了他的成本。

Mars_prime

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A Taxonomy and Survey of Attacks Against Machine Learning----针对机器学习的攻击的分类和调查

近年来，机器学习 (ML) 取得了巨大进步，其使用在许多新兴应用中已变得无处不在，这些应用可以在本地、边缘或云端收集和处理数据。这些数据可用于训练机器学习模型，而机器学习模型又可用于执行预测或支持医疗保健 [1]、入侵检测 [2]、欺诈检测 [3]、自动驾驶车辆 [4] 等领域的决策。以及许多其他应用[5-7]。然而，机器学习技术的迅速普及使得它们成为那些想要出于恶意目的操纵此类机制的对手的有吸引力的目标[8]。
复制链接

扫一扫