目录
摘要
对KD进行改进,不用soften的标签作为监督信息,而是用softmax前的神经元作为监督信息
利用学到的人脸特征的必备的特性,提出了一种选择和人脸特征相关性高的特征的方法(提出选择的方法)、
用这种选择的方法加上监督信息的改进,模型可以达到51.6X的压缩率,推理时间加快了90倍
引言
- 之前做法总结
用softmax函数后的概率值作为监督信息;
用softmax之前的零均质化后神经元的值作为监督信息;
有人指出前两种做法都存在极限输出,一个是1一个是正无穷,提出了soften标签作为监督信息;
但是在人脸识别中这些做法不收敛;
- 本论文的出发点
最后隐藏层的神经元的信息,和softmax后的信息一样多,但是更加的紧凑;
这些信息中含有跟人脸识别不相关的信息,所以需要剔除,剔除的方法来自于以下三个观察现象;
观察现象一:将神经元看成是人脸属性上的分布代表,有的神经元是身份相关的属性(IA),有的是身份不相关的(NA)
观察现象二:有一部分神经元是对NA敏感的,还有一些是IA与NA混杂敏感的,这表明神经元不是完全可分解的,而且这是网络对人脸识别任务的过拟合现象
观察现象三:有些神经元是与这所有的属性无关的,一直被抑制的,这属于噪音
- 本论文的贡献
高维度的soft标签是难以拟合的,而用更紧凑的监督信息可以帮助更快地收敛;
发现了三个观察现象
提出了一种有效的神经元的选择方法
方法
通过选择后的神经元训练学生网络
- 网络损失函数
fi表示teacher网络中选择的神经元
g表示从输入Ii到特征的函数映射
W表示student网络的参数
- 如何选择出fi