【阅读笔记】机器学习安全攻击与防御机制研究进展和未来挑战2021

论文阅读笔记仅供学习使用,如有侵权,联系立删!

机器学习面临的攻击

术语介绍

  • 对抗样本(adversarial example):为了让模型混淆出错而对原始样本经过精心扰动的样本.
  • 对抗扰动(adversarial perturbation):为使原始样本称为对抗样本而增加的扰动.
  • 对抗训练(adversarial training):使用原始训练集和对抗样本共同训练机器学习模型.
  • 敌手(adversary):特指制作对抗样本的攻击者.
  • 白盒攻击(write-box attack):攻击者拥有目标模型全部知识的攻击,包括其参数值、模型结构、训练方法、训练数据等.
  • 黑盒攻击(black-box attack):攻击者仅拥有模型有限知识的攻击,例如攻击者通过在训练阶段产生对抗样本进行对抗样本攻击.
  • 检测器(detector):检测样本是否为对抗样本的机制.
  • 出错率(fooling ratio):模型被攻击后的出错率.
  • 靶向攻击(targeted attack):指定模型输出的攻击,如为对抗样本指定分类标签等.
  • 威胁模型(threat model):模型可能遭受的攻击方式,例如黑盒攻击
  • 对抗样本转移性(transferability):对抗样本在其生成模型之外的有效性.
  • 通用干扰(universal perturbation):使用于任意样本得到的对抗样本都能有效使模型出错的干扰.

 训练数据投毒攻击

污染训练数据。

方式:通过操纵模型输入、修改训练数据、使特征丢失和破坏都能够发动投毒攻击

标签投毒

使训练数据对应到错误的标签,模型学习到错误的对应关系进而在面向新的测试数据时就会偏离正常的判断;

数据投毒  

攻击者通过修改原有的训练数据或创造新的错误的数据发动污染攻击 , 使模型的准确率降低

对抗样本攻击

对抗样本攻击的产生, 是机器学习模型输入的维度高而模型过于线性导致的 , 即是模型泛化能力不足, 因而无法充分学习到训练数据和标签的映射关系。
在一定的背景知识下, 可以通过添加少量干扰产生对抗样本来跨越模型的决策边界, 达到对抗攻击的目的。

分类

基于攻击者能够获取的背景知识不同划分。

白盒攻击:攻击者能够获取训练机制或训练的参数,攻击者通过获取模型的参数和数值,使用数学的方式构造成对抗样本。

黑盒攻击:攻击者多次查询或收集训练数据,分析输入和输出的对应关系,或通过多次对抗尝试,修改测试数据,得到对抗样本。

基于攻击者能否直接修改输入的不同, 对抗样本攻击又可以分为精致构造的对抗样本攻击 和物理世界的数据管道对抗样本攻击。
基于攻击者攻击目的的不同, 对抗样本攻击又可以分为对抗样本造成的逃逸攻击、对抗样本造成的靶向错误分类攻击和对抗样本造成的源/ 目标错误 分类攻击。
按照攻击者攻击手段的不同, 对抗样本攻击又可以分为基于梯度的攻击 ( 白盒 ) 、基于分数的攻击 (
) 、基于迁移的攻击 ( 黑盒 ) 、基于决策的攻击 ( 黑盒 )。

白盒攻击

错误分类(逃逸攻击)
指二分类任务中,使结果出错的攻击。通常发生在恶意软件、邮件或文件的识别学习任务中
/目标对应的错误分类
指在多分类标签的分类任务中, 通过优化算法修改原始数据得到最小修改的对抗样本, 使其通过学习模型得到攻击者指定的错误分类, 一般发生在图像识别的任务中
/ 目标对应的错误分类攻击指针对具有特定输出的特定测试样本的对抗攻击, 攻击者针对有特定分类的特定测试样本进行改动, 得出明确错误分类的对抗样本。
靶向错误分类

一般指攻击者生成的对抗样本对于人类而言是无意义的, 但通过学习模型能够得到攻击者指定的分类,一般发生在图像识别或语音识别中

黑盒攻击

对抗样本的转移性

对抗样本具有转移性, 即对抗样本在其生成模型之外的有效性。
已知攻击者通过将自己生成的数据输入模型进行分类, 并将模型输出作为标签, 可以训练出一个代替模型, 并通过代替模型生成对抗样本。 利用转移性, 将对抗样本返回原模型, 可以实现对抗样本攻击。

数据窃取攻击 

指通过存储和通信机制的漏洞、查询或反演技术等多种手段窃取机器学习隐私信息 ( 如隐私的训练数据、模型的训练方法和训练参数) 的攻击。 数据窃取攻击针对机器学习的隐私性, 大部分发生在黑盒攻击中, 因此, 攻击者仅具有窃取部分数据的能力。

利用数据存储和数据传输的不安全性发动的攻击,如经由安全信道传输到云端服务器的隐私数据未经加密或采取其他安全措施,被攻击者窃取。

推理阶段的数据窃取指  因学习到模型后未及时删除隐私数据 或 用户的测试数据在进入模型前后被攻击者窃取,如指纹重构、移动设备触摸手势重构、人脸重放等。

隐私询问攻击

指攻击者无法获取训练数据和模型数据, 只能通过观察测试数据输入模型后返回的结果( 询问
结果), 进行计算和推测而发动的攻击。

训练数据提取攻击

训练数据提取攻击的目标是训练数据的条目, 是攻击者利用询问数据与已有知识推测训练数据隐私的攻击。
攻击者利用大量询问的结果获得模型的分类和每个分类输出的概率, 以此创建与模型相似的特征向量, 每个特征向量代表某个类别的平均特征向量值, 当某个类别仅有一个个体时, 该个体隐私泄露。

模型提取攻击

模型提取攻击的目标是机器学习模型的数据, 指攻击者利用询问接口获得模型的分类与测试输入输出数据, 从而重构一个与原模型相似的模型的攻击。

成员推理攻击

成员推理攻击的目标是训练数据的个体, 攻击者根据询问结果判断出某个个体是否参与模型训练。
成员推理攻击基于模型提取攻击、统计的综合数据和有噪声的真实数据来建立攻击模型, 破坏需要保证训练数据隐私性的机器学习模型。

安全防御机制及分析 

根据针对的攻击不同, 现有的安全机制主要分为正则化、对抗训练、防御精馏、模型隐私改造、加密和扰动。
输入空间的正则化主要针对训练数据的污染攻击, 而模型参数的正则化、对抗训练和防御精馏主要针对推测阶段的对抗样本攻击。 模型隐私改造、加密和扰动主要用来防御由数据窃取和询问攻击带来的多种安全问题。

数据集和模型正则化

正则化是对机器学习进行规则化的过程, 即通过对模型和模型输入的规范化操作,降低模型的出错率。训练数据的正则化可以防御训练数据投毒攻击,而对模型的正则化可以防御对抗样本攻击。

输入正则化

对训练数据的正则化可以理解为在保证训练数据存储安全的情况下, 提升训练数据的质量。
提升训练数据的质量称为 数据集增强 即通过特征提取改变数据集的特征空间和数据分布, 或通过注入噪声进行数据扩充, 从而生成新的训练样本, 创建具有更大容量甚至无限容量的增强数据集, 从而提升模型的泛化能力。

模型正则化

模型正则化是利用正则化项对模型参数和训练方式进行规范化, 进而提升模型泛化能力的过程。
参数正则化
模型参数正则化是利用正则化项, 使模型参数满足某些约束的过程。
为了达到正则化的目的, 降低数据 改变对模型输出的影响, 模型训练过程倾向于让参数数值尽可能稀疏 ( 即非零参数尽可能少 ), 各个参数数值尽可能小。
机器学习的损失函数是模型预测与真实结果的差异值, 风险函数是损失函数的期望值。目前常用的正则化项有 L 0 , L 1 L 2 范式。 L 0 范式要求参数数值总和要小于某个数值, L 1 范式要求参数数值的绝对值总和在一定范围内以保证模型参数的稀疏性, L 2 范式要求参数数值的平方和在一定范围内以保证模型参数数值尽可能小。
Dropout
Dropout 也是模型参数的一种正则化过程, 它改变的不是参数的数值, 而是参数的数量。
Dropout 认为, 不训练多个模型也可以达到同样的效果。 即通过在训练期间随机丢弃神经元及其连接来构造简化的网络, 通过强迫神经元和其他随机挑选剩下来的神经元共同工作, 减弱神经元之间的联合适应性, 提高模型的泛化能力。

对抗训练机制

对抗训练指使用对抗模型产生带有完全标注的对抗样本和合法样本混合起来对原模型进行训练,以提升模型鲁棒性的防御机制。
能够提升学习模型对 对抗样本 的鲁棒性。

防御精馏

精馏 是通过一个模型的输出训练另一个模型的机器学习算法, 是在保证训练精度的条件下压缩模型的方法。
能够提升模型应对扰动的能力, 提升模型输出的平滑性。

隐私保护机制

(1)加密方案

在用户数据进入机器学习服务提供商之前, 使用加密手段可以防止因存储和传输的安全漏洞导致的数据窃取攻击。
同态加密、乱码电路 、秘密共享机制  和 安全处理器机制是最常使用的加密方法.
同态加密技术 通过对训练数据和模型数据的加密实现了对数据隐私的保护, 允许用户直接对密文进行相应的加法或乘法运算, 得到数据仍是加密的结果, 与对明文进行同样的操作再将结果加密一样。
乱码电路是指需要保护的双方或多方要获得某项计算的结果时, 将计算转换为乱码电路, 并将自己的乱码输入发送给另一方, 另一方可以根据电路和收到的乱码输入, 结合自己的乱码输入获得计算结果并分享给发送方的方法。
秘密共享机制是利用 shamir 门限方案的特性, w 个参与者共享一个秘钥, 任意 t ( 门限值 ) 个参与者都能计算出秘钥的值, 而任何 t 1 个参与者都无法计算出秘钥的值。
安全处理器机制是通过硬件设备的安全性保证计算安全性的方案

(2)扰动方案

针对推理阶段的询问攻击带来的各种安全问题, 安全防御机制的重点在于保证输入数据和模型数据的隐私性。
差分隐私指出: 通过合理的数学计算和对数据添加干扰噪声的方式保护所发布数据中潜在的用户隐私信 息, 可以使攻击者在拥有完美背景知识的情况下 , 通过询问攻击无法识别单个个体。

(3)模型的隐私改造

生成对抗网络、PATE模型

 安全机器学习研究挑战和方向

(1)数据和模型的异常检测

(2)对抗样本生成算法和模型输出平滑性

(3)模型隐私性提升

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值