NeuronInspect: Detecting Backdoors in Neural Networks via Output Explanations(AAAI-2019)
摘要
深度神经网络已经在各种任务上都取得了最先进的性能。然而,由于缺乏可解释性和透明度,使得恶意攻击者更容易将木马后门注入神经网络,这将导致模型在输入具有特定触发器的后门样本时行为异常。在本文中,我们提出了神经元检查,一个通过输出解释技术来检测深度神经网络中的木马后门的框架。神经首先通过生成输出层的解释热图来识别后门攻击目标的存在。我们观察到,从干净和反向的模型生成的热图具有不同的特征。因此,我们从一个被攻击的模型中提取出度量解释属性的特征,即:稀疏性、平滑性和持久性。我们结合这些特征,并使用离群值检测来找出离群值,即攻击目标的集合。我们在MNIST数字识别数据集和GTSRB交通符号识别数据集上验证了神经元检测的有效性和有效性。我们广泛地评估了神经元检查在不同的攻击场景下,并证明了比最先进的trojan后门检测技术更好的鲁棒性和有效性。
Introduction
在过去的十年里,我们进入了智能设备的新时代,见证了人工智能的巨大革命。在所有的人工智能技术中,深度神经网络(DNNs)在许多图像识别和理解应用中实现了最先进的性能,如目标检测(He等人。2016年;Ren等人。2015年),人脸识别(施罗夫、卡列尼琴科和菲尔宾,2015年;Sun等人。和自动驾驶汽车(Chen等人。2015).在不同类型的深度神经网络中,卷积神经网络(CNNs)已被广泛应用于计算机视觉任务中。然而,卷积神经网络需要大量的训练数据和昂贵的计算资源来获得良好的结果。其中一些需要数周的gpu训练,这对个人很难获得。因此,神经网络用户经常将他们的模型的训练外包给云服务,这被称为“机器学习即服务”(MLaaS)。例如,Mozilla在过去两个月内体验了超过16000次的下载。如今,已经有许多在线市场,人工智能和DNN模型被共享、交易和重用,如bigml、openml、梯度动物园、咖啡模型动物园、张流模型动物园等。
然而,将人工智能模型训练外包给恶意攻击者是一个严重的威胁,恶意攻击者可以将木马后门注入到你的模型中。例如,一个注入了木马后门的模型预测,如果一个特定的木马触发器被添加到一个输入的“停止符号”中,则会预测“速度限制符号”(顾、杜兰加维特和Garg2017)。这在真正的自动驾驶系统中可能是危险的,而人工智能模型中注入的后门可能最终导致交通事故。
在一个给定的训练过的DNN中检测木马后门的存在是很困难的。一般来说,验证我们的模型的