摘要
近几年,机器学习的大规模应用,以及算法的大幅度提升,吸引了学术界、工业界以及国防部门的大量关注。然而,对于机器学习算法本身的局限性,由于其快速的发展也不断的暴露了出来。因此,不论是人工智能领域的学者,还是安全领域的学者,都希望能够从不同的角度提高模型的泛化能力,自此之后,就拉开了一场在机器学习领域的军备竞赛。在不断的“攻”与“防”的竞争下,目前的针对机器学习模型的安全问题,也取得了不错的进展。所以,在本文中,首先对机器学习模型中可能出现安全隐患的部分进行了总览。然后针对不同的场景,进行了不同场景可能出现安全隐患的描述。最后,针对不同阶段的脆弱点,综述了当前的工作情况,并以此延伸出之后的工作可行的研究点。
- 简介
近数十年内,由于机器学习的热潮,计算能力有着摩尔定律的加持,以及大数据时代的来临,让越来越多的领域里都能被机器学习很好的应用。特别是在自然语言处理,计算机视觉等领域都有非常好的发展,甚至已经可以达到商业用途的地步。但是随着数据的增长,数据的安全是否得到了保障,模型的功能性是否得到了验证这仍然是个大大的问号[1]。
传统的机器学习学者们,主要关注的是模型对于结果预测的准确性,同时希望在不同场景中都有较强的泛化能力,从而能有很强的应用能力,进而商业化提现它本身的价值[4]-[14]。但是在数据量这么大的时代,数据的来源,现在大多都是非常敏感的,同时在机器学习模型应用的领域,可能都是各大公司的关键业务点,因此保证业务的时刻可用性,和数据的安全性,就越来越成为大家关注的一个热点问题。
因此,本文将从模型和数据的关系角度出发,从模型的产生到应用的各个阶段以及场景中,来详细剖析可能产生的安全隐患以及目前在机器学习模型方面的攻防实力应用。
图1:模型在各阶段可能产生的攻击
那么,从图1中我们不难看出,在机器学习的各个阶段都会有安全隐患的产生,我们在这一节先对各个部分的缺陷进行一个大致的介绍。在训练阶段,主要是在输入数据和模型训练的过程中,会产生安全隐患。而在推理阶段,在预测数据部分和结果预测部分,也会对原有的模型产生威胁。我们将以上阶段分为四个部分进行描述:
1、训练阶段的输入数据
当我们能接触,或间接修改模型训练阶段的输入数据的时候,无论是篡改部分数据的特征样本,亦或是“翻转”样本的标签,也可以是在部分训练数据分布敏感的场景下,都有可能对最后的模型准确性产生影响。
2、训练阶段的模型训练
一些在线的模型训练API,如若没有做好万全的防御措施,则可能会被恶意的攻击者,通过“逆向工程”的方式来解析模型的内部结构,从而导致模型的隐私信息的泄露。
3、推理阶段的预测数据
一个模型最重要的部分,就是希望能在推理阶段,能有尽可能高的推理准确率,不论其是否在训练数据中出现过。如果,我们恶意的对推理数据进行一些变化,让它看起来还是和正常的数据类似,但是我们在其某些特征上,动了些手脚,亦或是我们将部分信息“隐写”在图片当中,让模型进行错误的分类。
4、推理阶段的结果预测
一旦需要预测的数据出现了误差,那么最终的结果不论是对错,都已经对模型的准确性和鲁棒性产生了影响。在这个阶段,当恶意的攻击者,变化尽量少的数据样本,达到了最高的错误分类情况,那么他们就攻击成功了。当然还有更加危险的情况,就是如果部分的模型信息被泄露了的话,很有可能可以通过模型的输入和输出,通过建立“影子”模型,模拟原有模型的行为,从而实施更加自由的攻击模式。
- 不同阶段的脆弱点
不论是在任何的应用场景中,从数据的抽取,模型的建立,到最后的应用,都有潜在被攻击的可能性,因此,本章将从模型的不同阶段描述模型可能被利用的脆弱点。
图2:模型在不同场景的各个阶段
看到上图中,主要介绍了不同的场景中的攻击面,其中涉及到的是普遍的机器学习场景,计算机视觉以及网络安全的入侵检测。可以看到,不论是哪个场景中,都被分成了四个阶段,物理世界获取信息,转换成数字化表征形式,进入机器学习模型训练,返回到物理世界进行推理预测。
以第二个场景为例子,在计算机视觉的问题场景中,具体的是以自动驾驶为例子,这四个阶段分别对应的就是行车传感器获取停车的交通标志(物理世界获取信息),将获取的信息转化成图片进入预处理阶段(转化成数字表征),接下来将图像转化成3维的张量(表征转化),应用模型对其进行分类置信度的计算(进入机器学习模型训练),反馈到物理世界中,让车辆刹车(返回到物理世界推理)。这里值得注意的是,其实在数据表征转化的阶段,预处理的阶段,这几个阶段是相对模糊的,预处理即可以属于模型的训练阶段,也可以不属于。
再回顾下上一章节,我们提到过,在不同阶段都有可能产生脆弱的点,在给出一个更为具象的情景之后,就能对这个问题有更好的理解了。
仍以第二个场景自动驾驶为例,我们在行车过程中,肯定希望能够通过车辆的传感器获取正确的图片信息。
当我们的车辆行驶在路上的时候,我们的传感器传输被劫持,车辆获取了一个由恶意用户发送的信息之后,就将其输入到了预测模型中,这就有如,自动驾驶的车辆在高速公路上行驶着,但是却接受到了一张停车的交通标志的图片,最后导致了车辆的刹车,从而发生了事故,这就是典型的物理世界获取信息阶段被攻击的例子。
同理,如若在软件被攻击了之后,在读入了正确的图片之后,图片被自动加入了扰动(perturbation),可能限速的标志会被识别成最低速度的标志,那么自动行驶的车辆就会产生误判从而提高车速,显而易见,这就是转换成数字化表征形式阶段的攻击了。
这两个实际的例子主要总结帮助大家理解这样的阶段是如何被干扰,并产生恶意结果的。
图3:训练和推理阶段的攻击强度对比
如图3所示,在推理阶段和训练阶段,是有不同的攻击强度的[25]-[28]。
我们先来讨论推理(inference or test)阶段的攻击[25]。但恶意个体需要攻击模型的时候,模型对于攻击者是白盒还是黑盒的,会对攻击难度和最后可以获取的信息量的大小产生不同的影响。如若,对于攻击者而言,模型是黑盒的话,那么攻击者可以做的事情就相对比较少,因此攻击的强度也会较低,可能可以获取的就是模型的功能信息,对于模型的拥有者和模型的功能性影响并不会很大。但是如果攻击者在本地,或者,攻击者可以通过一定的途径来获得模型的一些额外信息的话,获取了模型的结构(神经网络的结构等)、参数等信息,那可能就会导致模型的部分信息泄漏,就会对模型带来很大的影响。直观来讲,这样的影响就是,攻击者可以根据具体的参数和模型结构,来有针对性的构造和筛选相应的恶意输入[30],从而使得模型不那么有效[31]。
反观训练(training)阶段的攻击,分类就有所不同[32]。这里观察到的是,对于模型的影响的力度问题,从读,注入到改变到逻辑影响,是从不同恶意影响的结果来区分攻击力度的。但是这里是从模型的隐私角度来考虑的,此结构并没有考虑到训练数据的隐私信息,这里需要提一下[33]-[36]。
在医疗领域,本身就非常需要有经验的专家来为医院坐诊,这就是为什么越有经验的医生,坐诊费用越高。这个很容易理解,就是因为他们的经验丰富,他们见过的案例很多,可以从中总结出来的经验非常多。这样的场景就和机器学习的模型很匹配了,自然就会有人考虑nlp(natural language processing)和知识图谱来辅助完成一个诊疗系统。其中用于训练的诊疗数据就是需要从病人处获得,如若训练数据被被第三方用户恶意获取并用作恶意用途,就会导致敏感信息的恶意泄漏。这里就会考虑到,训练数据的差分隐私问题。
那么从两个方面分析了机器学习的攻击面之后,我们可以看到有攻击者的目的是什么呢?他们最终的恶意目标是什么呢?
从传统软件研究者的角度考虑安全,是三个方面考虑,Confidentiality,Integrity和Availability,缩写就是CIA。这三个词,对应的就是,机密性,完整性,可用性。那么反观机器学习模型,这些要求自然也是必不可少的。
对于模型的结构、参数以及训练数据的信息,都需要保证在可用的情况下,他们的隐私保护力度是足够大的,保证这些信息在一定的时间空间的约束下不会被恶意利用,这就是机密性,Confidentiality。
那么诱导模型的输出结果,其实是同时破坏了模型的完整性和可用性,Integrity&Availability。我们可以看到当模型的完整性被破坏的时候,一定是由于攻击者的恶意输入,导致了人眼可分别的图片在模型中难以被辨别。其中完整性可能是因为由于被攻击者掌握了额外的模型信息,从而精心打造恶意输入,从而导致模型错误分类。在机器学习模型的场景下,完整性和可用性是有关联性的,一旦完整性被破坏了,其可用性一定会或多或少受到牵连。其主要的问题是因为目前模型的鲁棒性不够强,从而导致模型没有“看到过”的样例,一旦被精心篡改过,就有可能因为“盲点”效应,从而让攻击者得逞。
这节讨论了对于机器学习的威胁模型有哪些,有哪些攻击面可以提供给攻击者,同时也帮助模型的构建者,思考可以从哪些方面帮助模型提高鲁棒性。
- 机器学习模型的攻击分类
针对对抗机器学习这个问题而言,AI出身的科研人士们可能认为,这样的工作应该只能看做模型的鲁棒性或泛化能力不够强,但是从安全角度考虑,其实所谓的“安全”概念,是从模型的设计者角度出发,考虑到模型的行为超出意料之外,让模型原本的设计者手足无措,因此我们认为是可能存在“潜在威胁”,因而将这类行为归类为安全问题,从而也希望从安全角度思考机器学习的模型问题,最终给模型的设计者和先驱者们带来一些新的启发。
那么针对模型的攻击问题,我们主要分为两大类,就是从训练阶段和推理(inference)阶段来进行讨论。
A.训练阶段的攻击(Training in Adversarial Settings)
训练阶段的恶意攻击,主要的目的就是针对模型的参数进行微小的扰动,从让而模型的性能和预期产生偏差。这样的行为主要是通过数据投毒来完成的。
举个简单的例子,当我们在进行食品加工的时候,在里面少量的加入一些“有毒”的成分,那这个食品就会和当时预想的做出来不一样,从美味变成了毒物。当然,数据投毒没办法做到“一颗老鼠屎坏了一锅粥”,但是能通过尽量少的“老鼠屎”坏了尽量多的“粥”就是它的目的了。
不过在此之前,有个前提,在PAC理论中,有一个已经论证的结论:对于任意的学习算法而言,其置信度β[39],必须满足β≤Σ/1+Σ,其中Σ表示了学习准确率。那么也就是说,当我哦需要达到90%的学习准确率(Σ=0.1),那么我被扰动的数据量必须少于10%(0.1/1+0.1)。
1、标签操纵(label manipulation)
图4:标签操纵的分类准确率
这个方法很直观,就是直接通过对于训练数据的标签进行替换,让数据样本和标签不对应,最后训练的结果一定是不如预期的。有前人在SVM[44]的场景下,随机替换了约40%的数据,对其算法进行了破坏,最后的效果也是如期的很好。其实这只是在二分类问题中起到了比较好的结果,但是在多分类的情况下并没有很好的解释,或者是实证性的研究[44],[45]。(针对这个问题,可以有一个比较有趣的思考,如果二分类的分类替换了40%的数据会导致模型的预测结果很不好,那么多分类的SVM需要替换多少数据样本的标签呢,是需要替换更少的标签,还是更多?是随机替换还是有目标性的都替换成一种?)
后来的研究则是对这个标签操纵的过程更加优化,是否能通过更少的标签替换,来实现更强烈的模型扰动,从而产生更有说服力的攻击模型。
2、输入操纵(input manipulation)
图5:对输入进行操纵导致的结果
在此攻击场景下,攻击者需要获知模型的算法类型,并且能结束到训练集。
比较直接的攻击方式,则是通过在线的方式获得训练数据的输入权,那么最终的结果就是直接通过恶意数据来扰动在线训练过程,自然最后的结果就是脱离预期,从而导致恶意者的操纵成功[28]。
而当我们无法接触到在线模型的时候,我们只能通过线下的方式操纵训练数据,那么则需要构造尽量少且恶意程度尽量高的恶意样本,那么这就可以使用梯度上升的方法去达到局部分类错误最大的结果,从而完成样本构造,然后再输入到模型中进行训练。
那么,当我们无法直接接触到在线训练模型,或离线时,我们也无法解除到训练数据,我们该怎么进行输入的操纵呢[46]?从之前的流程介绍中我们也提到了,在物理世界获取数据的时候,这阶段并没有受到很好的保护[47]。因此这阶段的数据,我们可以通过恶意的攻击物理世界中的数据,例如交通信号灯,或者是自动驾驶摄像头正在拍摄的图像等。通过其在数据转换之前,就进行数据的污染,或是数据表示的污染[48],[49]。
B.推理阶段的攻击(Inference in Adversarial Settings)
当训练完成一个模型之后,这个模型就可以看做一个BOX,那么这个盒子中,对于我们如果是透明的话,我们就把它当成是“白盒”模型,如果这个盒子中,我们什么都看不了,我们就把它当成“黑盒”模型。(我们在这个部分暂且不讨论灰盒模型)
那么针对白盒和黑盒的进攻手段自然是不同的,但是最终的目的都是希望能对模型的最终结果产生破坏,与预期脱离。其影响力以及攻击的构造粒度也是有所不同的。
1、白盒攻击(White-Box Adversarial)
当然这种所谓的“白盒攻击”,需要提供一个很“假”的前提——就是我们需要知道里面所有的模型参数,这个在现实生活中是非常不现实的。除非是,当模型被打包压缩到智能手机上之后[62],然后恶意者通过逆向工程来进行原有模型的复原,才有可能。当然这种情况出现的情况非常低了,因此我们需要有这种前提假设。
(1)
看到如上公式,其中x是数据样本的特征,l是数据样本通过函数h(x)预测的结果,l就是预测的结果。我们的数据样本通过模型的预测结果可能是k,但是我们希望通过尽量小的扰动r,最后通过模型预测的结果是l(然而x的分类目标并不是l),这类工作的目标是很明确[25],[30],[51]。
当然这样的方法对于非凸的模型,例如深度神经网络也有类似的工作,同样也是能通过较小的扰动,来达成模型的误分类目的。
图6:FGSM的图像扰动方式
当然可以看到,如式(1)中所示,我们可以很明显的看到,其实如何快速求解这个扰动“r”是个问题,因此之后就有工作专门针对这个问题进行了探索,给出了如下方法,FGSM[52]:
(2)
如式(2)所示,通过梯度可以快速求导,以最小的扰动达到攻击目的。
图7:根据函数梯度进行攻击(手绘)
那么后续的工作无外乎就是从两个方向进行优化,一方面就是尽量少的对样本扰动,从而能达成攻击,另一方面对尽量少的样本特征进行操纵,通过算法的优化,从而能达到更高的错误识别率[52],[56],[66],[67]。
有一个很有趣的现象,是这样描述的,其实在数据进入预处理步骤之前,在物理世界中,如果没有一个很好的表示形态,即使经过了预处理,模型也很难识别。这就给了研究者一些启发,对图片进行打印之后,再拍照让模型进行识别;亦或是把人脸的图片打印在玻璃上,然后再进行识别。这样的结果,都会有很高的误识别率。(虽然目前CV发展的势头很好,但是由此看来,还是有不少算法对于环境和背景的敏感程度很高)
大家都认为,adversarial machine learning应该关注在分类问题上,但是其实并不然,其实如果一个AI系统是以agent为核心,或是以multi-agent为核心的强化学习系统的话,那也是有可以攻击的点的.现在有课题组可以在一些固定模式下自动进行星际争霸的游戏,如果攻击了这样的系统,应该还是非常有趣的。
不仅模型的预测结果是有脆弱的地方,同时,当我们拥有模型参数的时候,也是可以进行模型训练集数据分布的预测的。虽然这个并不是最重要的信息,但是也是一部分关于模型的隐私。
2、黑盒攻击(Black-Box Adversarial)
当模型处于黑盒的时候,更加符合现实的场景,但是这比白盒的模型缺少了更多的模型信息。因此,大家就从几个角度考虑如何进行模型攻击:通过输入和输出猜测模型的内部结构;加入稍大的扰动来对模型进行攻击;构建影子模型来进行关系人攻击;抽取模型训练的敏感数据;模型逆向参数等[29],[71],[72]。
其中我觉得比较有意思的是两个方法,一个是加入扰动来对模型进行攻击[73]。这个方法最主要针对的是,找到原有模型的“blind spot”,或是说“blind area”。这些区域主要是原有模型模棱两可的区域,或是boundary,这对二分类的问题来说可能这些区域比较小或是比较狭窄,但是如果针对的是多分类问题,就可能在高维空间中提现出更多的“blind area”。因此尽量高的命中这些盲区,是这种方法致力于的方向,同时这里也提出一个思考,这样的盲区是否是可以定向搜索的,或是说是否可以用一个模糊的算法bound住这些区域。
图8:影子模型的建立过程
第二是建立影子模型[36],这个过程很有意思,通过构建一个功能性类似的模型,来仿造一个攻击空间。这有点像军事演习的意思,我想要在战场上打出好的效果,就要模拟产战场上可能发生的情况,但是目前战场的情况我一无所知,所以我只能根据大致的情况去模拟。模型也是如此,只能对黑盒的情况进行对应的训练模拟,然后对其进行“白盒”的尝试,由于模型的迁移性还不错,或者说类似的算法都有不少的相同点,因此,影子模型的攻击成效还是不错的。
参考文献
[1] D. Amodei, C. Olah, J. Steinhardt, P. Christiano, J. Schulman, and D. Man´e, “Concrete problems in AI safety,” arXiv preprint arXiv:1606.06565, 2016.
[2] O. Ohrimenko, F. Schuster, C. Fournet, A. Mehta, S. Nowozin, K. Vaswani, and M. Costa, “Oblivious multi-party machine learning on trusted processors,” in 25th USENIX Security Symposium (USENIX Security 16), 2016.
[3] K. P. Murphy, Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
[4] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in Neural Information Processing Systems, 2012, pp. 1097–1105.
[5] I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to sequence learning with neural networks,” in Advances in Neural Information Processing Systems, 2014, pp. 3104–3112.
[6] H. Drucker, D. Wu, and V. N. Vapnik, “Support vector machines for spam categorization,” IEEE Transactions on Neural Networks, vol. 10, no. 5, pp. 1048–1054, 1999.
[7] A. K. Jain, M. N. Murty, and P. J. Flynn, “Data clustering: A review,” ACM Computing Surveys, vol. 31, no. 3, pp. 264–323, 1999.
[8] A. Krizhevsky and G. Hinton, “Learning multiple layers of features from tiny images,” 2009.
[9] J. Masci, U. Meier, D. Cires¸an, and J. Schmidhuber, “Stacked convolutional auto-encoders for hierarchical feature extraction,” in International Conference on Artificial Neural Networks and Machine Learning, 2011, pp. 52–59.
[10] D. Erhan, Y. Bengio, A. Courville, P.-A. Manzagol, P. Vincent, and S. Bengio, “Why does unsupervised pre-training help deep learning?” Journal of Machine Learning Research, vol. 11, pp. 625–660, 2010.
[11] V. Chandola, A. Banerjee, and V. Kumar, “Anomaly detection: A survey,” ACM Computing Surveys, vol. 41, no. 3, pp. 15:1–15:58, 2009.
[12] J. Hu and M. P. Wellman, “Nash Q-learning for general-sum stochastic games,” Journal of Machine Learning Research, vol. 4, pp. 1039–1069, 2003.
[13] R.S.SuttonandA.G.Barto, Reinforcement Learning: An Introduction. MIT Press, 1998.
[14] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot et al., “Mastering the game of Go with deep neural networks and tree search,” Nature, vol. 529, no. 7587, pp. 484–489, 2016.
[15] C. M. Bishop, “Pattern recognition,” Machine Learning, 2006.
[16] I. Goodfellow, Y. Bengio, and A. Courville, “Deep learning,” 2016, Book in preparation for MIT Press (www.deeplearningbook.org).
[17] M. Christodorescu and S. Jha, “Static analysis of executables to detect malicious patterns,” in 12th USENIX Security Symposium (USENIX Security 06), 2006.
[18] J. Zhang and M. Zulkernine, “Anomaly based network intrusion detection with unsupervised outlier detection,” in IEEE International Conference on Communications, vol. 5, 2006, pp. 2388–2393.
[19] R. Sommer and V. Paxson, “Outside the closed world: On using machine learning for network intrusion detection,” in 2010 IEEE symposium on security and privacy. IEEE, 2010, pp. 305–316.
[20] J. Cannady, “Next generation intrusion detection: Autonomous reinforcement learning of network attacks,” in Proceedings of the 23rd national information systems security conference, 2000, pp. 1–12.
[21] N. S. Altman, “An introduction to kernel and nearest-neighbor nonparametric regression,” The American Statistician, vol. 46, no. 3, pp. 175–185, 1992.
[22] M. Anthony and P. L. Bartlett, Neural network learning: Theoretical foundations. cambridge university press, 2009.
[23] L. Rosasco, E. De Vito, A. Caponnetto, M. Piana, and A. Verri, “Are loss functions all the same?” Neural Computation, vol. 16, no. 5, pp. 1063–1076, 2004.
[24] A. Sinha, D. Kar, and M. Tambe, “Learning adversary behavior in security games: A pac model perspective,” in Proceedings of the 2016 International Conference on Autonomous Agents & Multiagent Systems. International Foundation for Autonomous Agents and Multiagent Systems, 2016, pp. 214–222.
[25] M. Barreno, B. Nelson, R. Sears, A. D. Joseph, and J. D. Tygar, “Can machine learning be secure?” in Proceedings of the 2006 ACM Symposium on Information, computer and communications security. ACM, 2006, pp. 16–25.
[26] N. Papernot, P. McDaniel, S. Jha, M. Fredrikson, Z. B. Celik, and A. Swami, “The limitations of deep learning in adversarial settings,” in Proceedings of the 1st IEEE European Symposium on Security and Privacy. IEEE, 2016.
[27] V. Vapnik and A. Vashist, “A new learning paradigm: Learning using privileged information,” Neural Networks, vol. 22, no. 5, pp. 544–557, 2009.
[28] M. Kloft and P. Laskov, “Online anomaly detection under adversarial impact,” in International Conference on Artificial Intelligence and Statistics, 2010, pp. 405–412.
[29] D. Lowd and C. Meek, “Good word attacks on statistical spam filters.” in CEAS, 2005.
[30] C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus, “Intriguing properties of neural networks,” in Proceedings of the 2014 International Conference on Learning Representations. Computational and Biological Learning Society, 2014.
[31] N. Papernot, P. McDaniel, I. Goodfellow, S. Jha, Z. B. Celik, and A. Swami, “Practical black-box attacks against deep learning systems using adversarial examples,” arXiv preprint arXiv:1602.02697, 2016.
[32] P. Laskov et al., “Practical evasion of a learning-based classifier: A case study,” in 2014 IEEE Symposium on Security and Privacy. IEEE, 2014, pp. 197–211.
[33] R. J. Bolton and D. J. Hand, “Statistical fraud detection: A review,” Statistical science, pp. 235–249, 2002.
[34] T. C. Rindfleisch, “Privacy, information technology, and health care,” Communications of the ACM, vol. 40, no. 8, pp. 92–100, 1997.
[35] M. Fredrikson, S. Jha, and T. Ristenpart, “Model inversion attacks that exploit confidence information and basic countermeasures,” in Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. ACM, 2015, pp. 1322–1333.
[36] R. Shokri, M. Stronati, and V. Shmatikov, “Membership inference attacks against machine learning models,” arXiv preprint arXiv:1610.05820, 2016.
[37] M. Sharif, S. Bhagavatula, L. Bauer, and M. K. Reiter, “Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition,” in Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. ACM, 2016, pp. 1528–1540.
[38] D. M. Powers, “Evaluation: from precision, recall and f-measure to roc, informedness, markedness and correlation,” 2011.
[39] M. Kearns and M. Li, “Learning in the presence of malicious errors,” SIAM Journal on Computing, vol. 22, no. 4, pp. 807–837, 1993.
[40] A. Globerson and S. Roweis, “Nightmare at test time: robust learning by feature deletion,” in Proceedings of the 23rd international conference on Machine learning. ACM, 2006, pp. 353–360.
[41] N. Manwani and P. S. Sastry, “Noise tolerance under risk minimization,” IEEE Transactions on Cybernetics, vol. 43, no. 3, pp. 1146–1151, 2013.
[42] B. Nelson and A. D. Joseph, “Bounding an attack’s complexity for a simple learning model,” in Proc. of the First Workshop on Tackling Computer Systems Problems with Machine Learning Techniques (SysML), Saint-Malo, France, 2006.
[43] G. Hulten, L. Spencer, and P. Domingos, “Mining time-changing data streams,” in Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2001, pp. 97–106.
[44] B. Biggio, B. Nelson, and P. Laskov, “Support vector machines under adversarial label noise.” in ACML, 2011, pp. 97–112.
[45] M. Mozaffari-Kermani, S. Sur-Kolay, A. Raghunathan, and N. K. Jha, “Systematic poisoning attacks on and defenses for machine learning in healthcare,”IEEEjournalofbiomedicalandhealthinformatics,vol.19, no. 6, pp. 1893–1905, 2015.
[46] B. Biggio, B. Nelson, and L. Pavel, “Poisoning attacks against support vector machines,” in Proceedings of the 29th International Conference on Machine Learning, 2012.
16
[47] S. Mei and X. Zhu, “Using machine teaching to identify optimal training-set attacks on machine learners.” in AAAI, 2015, pp. 2871– 2877.
[48] J. Newsome, B. Karp, and D. Song, “Polygraph: Automatically generating signatures for polymorphic worms,” in Security and Privacy, 2005 IEEE Symposium on. IEEE, 2005, pp. 226–241.
[49] R. Perdisci, D. Dagon, W. Lee, P. Fogla, and M. Sharif, “Misleading worm signature generators using deliberate noise injection,” in Security and Privacy, 2006 IEEE Symposium on. IEEE, 2006, pp. 15–pp.
[50] H. Xiao, B. Biggio, G. Brown, G. Fumera, C. Eckert, and F. Roli, “Is feature selection secure against training data poisoning?” in Proceedings of the 32nd International Conference on Machine Learning (ICML-15), 2015, pp. 1689–1698.
[51] B. Biggio, I. Corona, D. Maiorca, B. Nelson, N. ˇSrndi´c, P. Laskov, G. Giacinto, and F. Roli, “Evasion attacks against machine learning at test time,” in Machine Learning and Knowledge Discovery in Databases. Springer, 2013, pp. 387–402.
[52] I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and harnessing adversarial examples,” in International Conference on Learning Representations. Computational and Biological Learning Society, 2015.
[53] S.-M. Moosavi-Dezfooli, A. Fawzi, and P. Frossard, “Deepfool: a simple and accurate method to fool deep neural networks,” arXiv preprint arXiv:1511.04599, 2015.
[54] S. Alfeld, X. Zhu, and P. Barford, “Data poisoning attacks against autoregressive models,” in Thirtieth AAAI Conference on Artificial Intelligence, 2016.
[55] G. Ateniese, L. V. Mancini, A. Spognardi, A. Villani, D. Vitali, and G. Felici, “Hacking smart machines with smarter ones: How to extract meaningful data from machine learning classifiers,” International Journal of Security and Networks, vol. 10, no. 3, pp. 137–150, 2015.
[56] K. Grosse, N. Papernot, P. Manoharan, M. Backes, and P. McDaniel, “Adversarial perturbations against deep neural networks for malware classification,” arXiv preprint arXiv:1606.04435, 2016.
[57] A. Kurakin, I. Goodfellow, and S. Bengio, “Adversarial examples in the physical world,” arXiv preprint arXiv:1607.02533, 2016.
[58] W. Xu, Y. Qi, and D. Evans, “Automatically evading classifiers,” in Proceedings of the 2016 Network and Distributed Systems Symposium, 2016.
[59] M. Fredrikson, E. Lantz, S. Jha, S. Lin, D. Page, and T. Ristenpart, “Privacy in pharmacogenetics: An end-to-end case study of personalized warfarin dosing,” in 23rd USENIX Security Symposium (USENIX Security 14), 2014, pp. 17–32.
[60] F. Tram`er, F. Zhang, A. Juels, M. K. Reiter, and T. Ristenpart, “Stealing machine learning models via prediction apis,” arXiv preprint arXiv:1609.02943, 2016.
[61] N. Papernot, P. McDaniel, and I. Goodfellow, “Transferability in machine learning: from phenomena to black-box attacks using adversarial samples,” arXiv preprint arXiv:1605.07277, 2016.
[62] G. Hinton, O. Vinyals, and J. Dean, “Distilling the knowledge in a neural network,” in NIPS-14 Workshop on Deep Learning and Representation Learning. arXiv:1503.02531, 2014.
[63] D. C. Liu and J. Nocedal, “On the limited memory bfgs method for large scale optimization,” Mathematical programming, vol. 45, no. 1-3, pp. 503–528, 1989.
[64] Y. LeCun and C. Cortes, “The mnist database of handwritten digits,” 1998.
[65] D. Warde-Farley and I. Goodfellow, “Adversarial perturbations of deep neural networks,” Advanced Structured Prediction, T. Hazan, G. Papandreou, and D. Tarlow, Eds, 2016.
[66] R. Huang, B. Xu, D. Schuurmans, and C. Szepesvari, “Learning with a strong adversary,” arXiv preprint arXiv:1511.03034, 2015.
[67] A. Nguyen, J. Yosinski, and J. Clune, “Deep neural networks are easily fooled: High confidence predictions for unrecognizable images,” in In Computer Vision and Pattern Recognition (CVPR 2015). IEEE, 2015.
[68] N. Carlini, P. Mishra, T. Vaidya, Y. Zhang, M. Sherr, C. Shields, D. Wagner, and W. Zhou, “Hidden voice commands,” in 25th USENIX Security Symposium (USENIX Security 16), Austin, TX, 2016.
[69] L. Pinto, J. Davidson, and A. Gupta, “Supervision via competition: Robot adversaries for learning tasks,” arXiv preprint arXiv:1610.01685, 2016.
[70] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in Neural Information Processing Systems, 2014, pp. 2672– 2680.
[71] G. L. Wittel and S. F. Wu, “On attacking statistical spam filters.” in CEAS, 2004.
[72] Y. Vorobeychik and B. Li, “Optimal randomized classification in adversarial settings,” in Proceedings of the 2014 international conference on Autonomous agents and multi-agent systems. International Foundation for Autonomous Agents and Multiagent Systems, 2014, pp. 485–492.
[73] D. Lowd and C. Meek, “Adversarial learning,” in Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining. ACM, 2005, pp. 641–647.