INVITED: Building Robust Machine Learning Systems: Current Progress, Research Challenges, and Opportunities
构建强大的机器学习系统:当前进展、研究挑战和机遇
文章核心
这篇文章的核心内容是探讨如何构建可靠且安全的机器学习系统,特别是深度学习系统。文章总结了当前的研究进展、面临的主要挑战(如硬件故障和安全攻击),并提出了应对这些挑战的技术和未来的研究方向。主要关注点包括提高系统的容错能力、缓解对抗样本攻击和后门攻击,以及在安全关键应用中的应用,如自动驾驶和智能医疗。
一、INTRO
-
背景和重要性
- 机器学习(ML)已经成为数据分析的主要工具,能够直接从原始数据中学习,几乎无需人工干预。
- 深度神经网络(DNN)因其在许多机器学习应用中提供的先进准确性,特别受到关注。
-
当前研究重点
- 改进深度神经网络(DNN)的技术,旨在开发能够学习正确功能且无偏差的学习算法,从而提高机器学习系统的准确性。
- 由于DNN计算密集,因此研究还关注如何显著减少这些算法的计算复杂性和内存需求。
- 除了优化算法外,数字系统设计社区也在开发高效的硬件加速器,以通过设计特定应用的硬件进一步提升效率。
-
应用领域
- 随着当前技术的进步,DNN也被探索用于安全关键的应用,例如自动驾驶和智能医疗。
- 这些应用因为其操作的风险,需要符合严格的健壮性约束。
-
健壮性的定义
- 健壮性指的是系统对可靠性威胁和安全漏洞的抵抗力。
- 图1展示了几个可靠性和安全性的漏洞,这些将在后续章节(第2和第3部分)中详细讨论。
-
文章目标
- 讨论当前关于DNN可靠性和安全性的最新进展。
- 强调在构建可靠且安全的高效DNN方面面临的挑战
图1: 机器学习系统的可靠性和安全威胁
- 软件攻击: 包括对系统软件部分的攻击。
- 训练/推理攻击: 在推理过程中,通过修改输入或使用特定的触发器来使系统输出错误结果。
- 硬件木马: 在硬件中植入恶意电路,影响系统行为。
- 旁道攻击: 利用系统运行时的物理泄漏信息(如电磁辐射、电源消耗)进行攻击。
- 老化: 由于长时间运行,硬件性能下降。
- 工艺变异: 由于制造工艺的差异导致的硬件特性差异。
- 软错误: 由外部辐射引起的瞬态错误。
二、可靠的机器学习
2.1 可靠性威胁的种类及其影响
- 软错误 (Soft Errors): 由于外部辐射(如高能粒子)撞击导致的瞬态故障,这些错误通常是短暂的,但会导致计算结果错误。
- 定时错误 (Timing Faults): 由于电路中信号传播延迟导致的错误,这些延迟可能由制造工艺变异或芯片老化引起。
- 永久性故障 (Permanent Faults): 由于硬件损坏导致的持续性错误,例如制造缺陷或长期使用造成的磨损。
这些故障可能从硬件层级一直传播到应用层级,导致误预测。为减轻这些故障,提出了多种技术,大多数基于冗余方法,通过空间/时间冗余来执行多个应用实例并投票以确保执行正确性。然而,由于DNN的计算密集特性,直接应用这些方法可能会抵消硬件加速带来的优势。
2.2 深度神经网络(DNN)对可靠性故障的弹性
2.2.1 永久性故障
图2: 基于收缩阵列的DNN加速器架构
- (a) 基线架构: 展示了一个标准的收缩阵列DNN加速器架构。
- (b) 永久故障缓解: 通过修改架构来应对永久故障。
- (c) 定时错误缓解: 使用Razor触发器和多路复用器来检测和缓解定时错误。
为了分析永久性故障对DNN分类准确性的影响,作者们进行了如下实验:
- 基线硬件: 使用一个由大量乘累加(MAC)单元组成的收缩阵列(图2(a))。
- 故障注入: 在收缩阵列的内部节点注入“固定故障”(stuck-at-fault)。
- 任务映射: 将DNN用于两种不同的分类任务(MNIST数据集上的数字分类和TIMIT数据集上的语音识别)映射到“故障”基线TPU上。
结果表明,即使仅有4个故障MAC单元(基线TPU共有65K个MAC单元),TIMIT数据集的分类准确率从74.13%下降到39.69%。这是因为故障频繁影响MAC输出的高位,导致矩阵-矩阵/矩阵-向量乘积中的大错误(图3(b))。
2.2.2 定时错误
图3: DNN中永久故障和定时错误的影响
- (a) 错误MAC单元对分类准确性的影响: 随着MAC单元故障数量增加,分类准确性显著下降。
- (b) TPU永久故障对激活值的影响: 永久故障导致计算结果偏离预期值。
- (c) 定时错误传播对分类准确性的影响: 定时错误传播会显著降低分类准确性。
- (d) 在TPU架构中,本地和全局定时错误率与电压下调比率的关系。
为了分析定时错误的影响,作者采用了定时错误传播(TEP)方法,让定时错误传播到后续计算阶段(图3(c))。实验显示,随着电压降低,定时错误出现后,MNIST基准测试的分类准确性迅速下降(图3(d))。
2.3 缓解技术
2.3.1 永久性故障缓解
作者提出了两种技术来缓解永久性故障:
- 故障感知剪枝 (FAP): 剪枝与故障MAC单元相连的所有网络连接,并启用简单的旁路电路(图2(b)),这些修改在硬件上开销很小。
- 故障感知剪枝加再训练 (FAP+T): 在剪枝后重新训练DNN以恢复精度。然而,不同TPU芯片的故障地图可能不同,因此需要对每个TPU芯片进行再训练,增加了“测试时间”。
2.3.2 定时错误缓解
作者提出了一种新技术(TE-Drop)来缓解TPU类似加速器中MAC单元的定时错误。该技术为每个MAC单元配备Razor触发器来检测定时错误,但不重新执行错误计算,而是:
- 当MAC单元发生定时错误时,TE-Drop从其后继MAC单元“窃取”下一个时钟周期以正确添加其贡献。
- 通过多路复用器(MUX)控制错误信号:如果前一个MAC单元发生定时错误,MUX将前一个MAC的正确部分和传递给下一个MAC单元;否则,当前MAC单元更新部分和并将输出传递给下一个MAC。
图4展示了两个DNN网络在电压下调比率变化时各层的定时错误率。结果表明,不同网络层的定时错误率差异显著,因此提出了分层电压下调方案,以在各层之间平衡定时错误预算,实现高能效。
图4: 不同层在电压下调比率下的定时错误概率
- MNIST和ImageNet数据集的各层在不同电压下调比率下的定时错误概率变化情况。
- 发现定时错误概率在不同层之间差异显著,基于此提出了分层电压下调方案,以实现高能效。
3 安全的机器学习
3.1 深度神经网络(DNN)的安全攻击
DNN系统易受到几种安全威胁,包括数据篡改、模型/IP窃取和拒绝服务攻击。本文讨论了以下两种主要的攻击类型:
3.1.1 对抗样本攻击
这些攻击通过在输入数据中添加微小的对抗性噪声,使得DNN的推理结果出现错误。对抗样本攻击可以分为两种:
- 目标攻击:攻击者希望模型将输入误分类为特定类别。
- 非目标攻击:攻击者希望降低模型的分类信心,使其更容易受到其他错误的影响。
最近提出的TrISec攻击利用了梯度信息和优化反向传播的效果来生成攻击图像。然而,传统的对抗样本生成方法需要大量的推理和输出概率,可能在资源受限的DNN系统(如自动驾驶车辆)中失效。为了解决这些限制,提出了资源高效的决策攻击(RED-Attack),利用二分搜索算法在分类边界上找到合适的攻击图像。
3.1.2 后门或神经特洛伊木马攻击
不同于对抗样本攻击,后门攻击针对外包的ML训练过程,攻击者可以访问训练程序,并在训练数据中注入高密度的明显噪声模式作为隐藏的后门。这样,当输入中存在后门触发器时,DNN会执行目标或随机误分类(图5)。
攻击者可以通过以下方式实现目标:
- 训练集中毒:在训练数据中加入目标样本和标签。
- 修改训练算法配置:如学习率或批次大小。
- 直接修改训练网络参数。
此外,DNN也容易受到模型窃取攻击,这些攻击通过提取或估计DNN IP的行为,导致IP版权的泄露和经济损失。近期提出的多种高效DNN算法(如尖峰神经网络和胶囊网络)也同样易受对抗样本攻击。
3.2 针对安全攻击的防御
为应对上述安全攻击,提出了几种对策:
3.2.1 对抗样本攻击的防御
这些攻击通常利用DNN的梯度,因此为保护梯度,提出了以下防御措施:
- DNN掩蔽
- 梯度掩蔽
- 对抗训练
这些方法要么局限于已知攻击,要么可以通过修改优化函数来攻破。另一种防御措施是对CNN输入进行预处理(如量化、过滤),以增加攻击噪声的感知性或减少其整体影响。例如,研究表明,低通预处理过滤器可以在攻击者未知的情况下抵消对抗攻击(图6)。
3.2.2 后门攻击的防御
由于后门攻击利用了DNN的冗余容量,因此剪枝是一种自然的防御措施。剪枝防御通过消除休眠神经元来减少网络规模,从而限制或禁用后门行为。尽管剪枝防御可以成功抵消所有简单的后门攻击,但“剪枝感知”攻击(假设攻击者知道剪枝过程)可以通过将正常和后门行为映射到同一组经常活跃的神经元上来攻破剪枝防御。为了防御这种剪枝感知攻击,可以在小型干净的训练数据集上执行局部剪枝感知再训练(微调),有效禁用后门。
这张图展示了MNIST数字“7”和美国“停止”标志的原始图像及其对应的后门图像。
左图(MNIST数字“7”)
- 原始图像:标准的MNIST数据集中的数字“7”。
- 单像素后门:在图像的右下角添加了一个单像素的噪声。这种微小的变化对于人眼来说几乎不可见,但可以触发训练有素的DNN产生错误分类。
右图(美国“停止”标志)
- 原始图像:标准的“停止”标志图像。
- 黄色方块后门:在图像的左下角添加了一个黄色方块。这种变化同样不容易被人眼察觉,但可以触发DNN错误地将“停止”标志识别为其他标志(如速度限制标志)。
这张图展示了在不同攻击模型下(L-BFGS、FGSM、BIM),预处理过滤对对抗样本攻击的影响。
Case I: 原始样本的分类(无攻击)
- 所有攻击模型下,DNN对原始“停止”标志的分类准确率都接近100%。
Case II: 未经过滤的扰动图像的分类或攻击者可以访问过滤器的输出
- 在这种情况下,分类准确率显著下降,表明未经过滤的对抗样本成功欺骗了DNN。
- L-BFGS攻击模型下准确率下降至85.68%,FGSM和BIM攻击模型下准确率分别下降至75.68%和89.68%。
Case III: 攻击者无法访问过滤器输出时的扰动图像分类
- 分类准确率进一步下降,因为攻击者无法调整对抗样本以绕过预处理过滤器。
- L-BFGS攻击模型下准确率为72.74%,FGSM和BIM攻击模型下准确率分别为74.85%和70.39%。
Case IV: 在引入预处理后攻击者无法访问过滤器的情况下的扰动图像分类
- 预处理过滤器显著提高了对抗样本的分类准确率。
- L-BFGS攻击模型下准确率恢复至78.64%,FGSM和BIM攻击模型下准确率分别为68.45%和85.64%。