重新思考基于知识蒸馏的人脸识别的特征

禄亿萋

于 2024-08-28 09:38:46 发布

阅读量382

点赞数 19

文章标签：人工智能算法机器学习

本文链接：https://blog.csdn.net/qq_44926214/article/details/141557586

版权

Rethinking Feature-based Knowledge Distillation for Face Recognition

摘要

在本文中，试图在学生训练中删除身份监督，以节省大量的类中心的GPU内存。然而，这种幼稚的去除导致较差的蒸馏结果。所以，从内在维度的角度仔细考察了性能下降，认为内在维度上的差距，即内在差距，与臭名昭著的容量差距问题密切相关。通过使用逆向蒸馏来限制教师的搜索空间，缩小了固有的差距，并释放了仅特征蒸馏的潜力。值得注意的是，拟议的逆向蒸馏创造了普遍的学生友好的教师，展示了优秀的学生的进步。我通过设计一个学生代理来进一步提高其有效性，以更好地弥合内在差距。因此，所提出的方法超越了最先进的蒸馏技术与身份监督的各种人脸识别基准，并在不同的师生对的改进是一致的。

网络模型

师生之间的内在差距和学生无法再现教师的特征空间之间建立了联系。反蒸馏，然后提出作为一种补救措施的问题。此外，通过设计更多的轻量级学生代理来改进该策略，进一步提高了反蒸馏的结果，缩小了内在差距。

（1）纯蒸馏与内在间隙

KD中使用的一般损失函数可以写为：

对于FO蒸馏，γ和α都为零，仅涉及Lfeat项的设计。对于面部识别，普遍的选择是对网络嵌入采用一定的距离度量。按照常见的做法，在归一化嵌入上使用MSE损失，

其中fs和ft分别指学生嵌入向量和教师嵌入向量，N是批量大小。这在概念上等价于匹配单位超球面上的嵌入或最小化它们的角距离。

特征提取本质上是嵌入的特征空间上的函数匹配任务，学生学习去除冗余信息，朝着更紧凑和教师式流形转化。内在差距本质上量化了所需转换的复杂性，因此是蒸馏的困难。

（2）反蒸馏

本节中，建议通过将关于更高内在维度特征空间的知识注入教师培训来解决上述问题。如图2所示，整个蒸馏过程可以通过两阶段训练方案来实现，称之为反蒸馏授权的纯蒸馏（ReFO）。

第一阶段是从学生到教师的逆向升华。首先，在具有ID监督Lcls的数据集D1上训练初始学生S′。冻结S′的参数以获得其在D1上的嵌入。然后，教师T在D1上进行训练。除Lcls外，它的优化由初始学生S′用嵌入蒸馏损失Lemb指导。这从本质上限制了教师在更高的内在维度上的搜索空间，更接近学生的先天性格。把教师称为是为S′量身定做的，用T ← S′表示。在FO蒸馏的第二阶段，冻结教师的参数以获得其在数据集D2上的嵌入。这些嵌入用于训练最终目标学生S。最后，S仅通过嵌入蒸馏损失Lemb与来自T的嵌入来训练。

在形式上，在算法1中描述了所提出的ReFO蒸馏。该提取可以是离线的，其中预先保存在步骤2和4中获得的特征以避免在训练期间的多个前向推断。对于在线蒸馏，这些特征可在现场生成，从而在数据扩充过程中提供一致的蒸馏视图。

内在维度最终取决于特征空间中的嵌入分布，因为它是根据相邻点之间的距离估计的（补充方程1）。逆蒸馏鼓励教师的嵌入分布与学生的相似，并且本质上限制教师在更高内在维度的受限搜索空间中进行优化。

由于教师训练数据集D1和学生训练数据集D2是独立的，并且在学生训练中不需要ID监督，因此所提出的方法可以容易地利用丰富的未标记数据集作为D2来获得额外的性能增益。

（3）进一步缩小内在差距

建议在算法1的步骤1中训练一个半深度的学生代理作为S′，而不是在阶段1和阶段2中使用完全相同的学生结构。具体来说，对于基于块的网络结构，根据预设的比率Sd = 0.5减少每个块组中的块的数量。当出现非整数块数时，总是向下舍入，但确保它至少为1。例如：[4，6，3]比例Sd = 0.5，则块编号被设置为[2，3，1]。蒸馏过程的其余部分与ReFO相同，这种带有学生代理的修订后的培训计划被称为增强型ReFO（ReFO+）。

禄亿萋

关注

19
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
重新思考基于知识蒸馏的人脸识别的特征

师生之间的内在差距和学生无法再现教师的特征空间之间建立了联系。反蒸馏，然后提出作为一种补救措施的问题。此外，通过设计更多的轻量级学生代理来改进该策略，进一步提高了反蒸馏的结果，缩小了内在差距。
复制链接

扫一扫