对抗输入
是经过特殊构造的输入,可以让分类器的分类结果不可靠从而避免被检测到。
分类器面临两种类型的对抗输入:
Mutated input(突变输入)
是一种避免被分类器识别的攻击变种。
0 day输入
是指之前从未见过的payload。
数据投毒攻击
给分类器的训练样本中加入对抗数据。
最常见的攻击类型是模型倾斜(model skewing)。攻击者尝试污染训练数据,改变分类器的分类边界。比如使用有问题的数据发送给模型,并尝试让模型不报警,从而训练这个模型在遇到类似的数据时都不报警了。
第二种攻击类型是反馈武器化(feedback weaponization)。攻击者会滥用反馈机制来操纵系统使其将善意的内容错误分类为恶意的内容。比如通过大量刷低分评价来降低应用的评分。
模型窃取技术
模型窃取技术是指通过黑盒探测来窃取模型或者恢复训练数据成员。
模型窃取攻击主要有两种形式:
模型重建
关键是攻击者能够通过探测公有的API和限制自己的模型来重建一个模型。
此类攻击对于包含SVM、随机森林、深度神经网络等大多数AI算法都是有效的。
成员泄露
攻击者可以通过建立影子模型的方式来决定用哪些记录来训练模型。
这种攻击不需要重建模型,但是可以获取敏感信息。