文献背景及解决问题
现如今许多机器学习(ML)系统都是通过重用一组通常经过预先训练的原始模型来构建的(例如,特征提取),越来越多的原始模型的使用意味着简化和加速了ML系统的开发周期,但由于大多数此类模型都是由不可信的来源提供和维护的,缺乏标准化或监管会带来深远的安全影响。数据:截至2016年,超过13.7%的ML系统至少使用一个GitHub上的原始模型(预训练神经网络被广泛用于图像数据的特征提取)。
作者证明了某些恶意原始模型对ML系统的安全构成了巨大的威胁。通过构建恶意模型(对抗性模型),迫使调用系统在面对目标输入(触发器)时以一种高度可预测的方式执行错误处理。例如:自动驾驶汽车可能被误导而导致事故;视频监控可以避开非法活动;钓鱼网页可以绕过网页内容认证;基于生物特诊的认证可能被操控允许不适当的访问。
核心方法
A.Model-Based ML Systems
一个端到端的ML系统通常由各种组件组成,这些组件可以实现不同的功能(例如,特性选择、分类和可视化),本文主要关注两个核心组件,特征提取器和分类器(或回归器)。特性提取通常是最关键、最复杂的步骤,重用基于大量训练数据或精心调优的特征提取器非常常见。所以本文着重考虑重用特征提取器的情况。
训练数据集与分类回归输入的目标集是不同的,但共享相同的特征空间(比如自然图像和医学图像)。根据目标集实例进行有监督调整: