本文关于《Towards Evaluating the Robustness of Neural Networks》,对于CW attack以及蒸馏网络有一定的讨论。(博主对于深度学习和对抗样本都还是新手,博文仅是做学习过程中笔记之用,望轻喷^ ^)
1. 《Towards Evaluating the Robustness of Neural Networks》
上周简要学习了CW attack中作者对于对抗样本构造的数学模型,本周首先补充学习了CW attack所针对的蒸馏网络防御法,然后阅读了作者所实施的在L0、L2、L∞范数上的攻击效果及其评价。
1.1 关于蒸馏网络(Distillation & Defensive Distillation)
蒸馏网络本身是用于将一个很大的模型(the teacher)降低为一个很小的蒸馏后的模型。蒸馏网络通常会用常见的方法来训练出一个原始模型,然后将原始模型计算出soft label。此处的soft label可以解释为目标分类的软性结果,即该目标分类的结果概率分布在不同的类别之上。接下来再用soft label训练得到蒸馏后的模型。神经网络在得到最终的分类结果时,是通过softmax函数来计算其概率分布的,也是蒸馏网络的最后一层: