Face Model Compression by Distilling Knowledge from Neurons论文初读

该论文提出了一种新的知识蒸馏方法,通过选择具有判别性的神经元来训练学生网络,以实现人脸识别模型的高效压缩。研究发现,教师模型的顶层神经元包含与人脸识别相关的重要信息,但存在非相关性和过拟合问题。通过对神经元的属性判别性定义,论文提出了一种选择方法,使得学生模型在压缩率高达51.6X的同时,推理速度提升了90倍。
摘要由CSDN通过智能技术生成

目录

摘要

引言

方法

  通过选择后的神经元训练学生网络

  神经元的属性判别性定义(关系到上边两个函数如何定义)

  Teacher和Student的网络结构

实验

  测试方法

  压缩T1模型

  压缩模型T2

  压缩集成模型T1

结论


摘要

对KD进行改进,不用soften的标签作为监督信息,而是用softmax前的神经元作为监督信息

利用学到的人脸特征的必备的特性,提出了一种选择和人脸特征相关性高的特征的方法(提出选择的方法)、

用这种选择的方法加上监督信息的改进,模型可以达到51.6X的压缩率,推理时间加快了90倍

引言

  • 之前做法总结

用softmax函数后的概率值作为监督信息;

用softmax之前的零均质化后神经元的值作为监督信息;

有人指出前两种做法都存在极限输出,一个是1一个是正无穷,提出了soften标签作为监督信息;

但是在人脸识别中这些做法不收敛;

  • 本论文的出发点

最后隐藏层的神经元的信息,和softmax后的信息一样多,但是更加的紧凑;

这些信息中含有跟人脸识别不相关的信息,所以需要剔除,剔除的方法来自于以下三个观察现象;

  观察现象一:将神经元看成是人脸属性上的分布代表,有的神经元是身份相关的属性(IA),有的是身份不相关的(NA)

  观察现象二:有一部分神经元是对NA敏感的,还有一些是IA与NA混杂敏感的,这表明神经元不是完全可分解的,而且这是网络对人脸识别任务的过拟合现象

  观察现象三:有些神经元是与这所有的属性无关的,一直被抑制的,这属于噪音

  • 本论文的贡献

高维度的soft标签是难以拟合的,而用更紧凑的监督信息可以帮助更快地收敛;

发现了三个观察现象

提出了一种有效的神经元的选择方法

方法

  通过选择后的神经元训练学生网络

  • 网络损失函数

fi表示teacher网络中选择的神经元

g表示从输入Ii到特征的函数映射

W表示student网络的参数

  • 如何选择出fi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值