知识蒸馏用于度量学习（一）

最新推荐文章于 2024-05-04 23:31:16 发布

我就爱乐呵

最新推荐文章于 2024-05-04 23:31:16 发布

阅读量1k

点赞数

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/Shhuikai/article/details/105257225

版权

计算机视觉专栏收录该内容

6 篇文章

订阅专栏

Learning Metrics from Teachers: Compact Networks for Image Embedding

链接：https://arxiv.org/abs/1904.03624

Code：https://github.com/yulu0724/ EmbeddingDistillation

知识蒸馏是实现模型压缩的一种有效的方法，它受启发于人类社会中教师和学生之间的教授关系。人类社会中，教师一般具有更多的知识，可以通过指导学生使得学生获得解决问题的能力。类似地，知识蒸馏将特征提取能力强但是复杂的模型定义为教师模型，特征提取能力弱但是简单易实现的模型定义为学生模型，通过教师模型对学生模型的指导来使得学生模型获得类似教师的特征提取能力。也就是说知识蒸馏致力于让学生模型通过模仿教师模型来获得和教师模型相似的能力。常见的知识蒸馏主要用于分类任务，在这篇文章中作者将知识蒸馏模型应用于度量学习中。

摘要：度量学习可以用于图像检索和人脸识别等诸多领域。在本文中，作者引入知识蒸馏，在小型网络上实现图像嵌入。知识蒸馏已成功地用于图像分类，但尚未用于度量学习。作者提出了两个新的损失函数用于深层教师网络与小型学生网络间的通信。作者在CUB-200-2011，Cars-196，Stanford Online Products数据库上进行了实验，结果显示小型学生网络的效果明显优于类似规模的标准网络的效果。在MobileNet-0.25上，提出的方法可以将Recall @ 1从27.5％提高到44.6％。

度量学习：度量学习是通过神经网络将图像转换为特征量，并通过合适的损失函数使得在特征空间中特征具有明显的类内相似性和类间相异性，在论文中作者使用了Triplet loss：

知识蒸馏用于度量学习：

知识蒸馏想让学生网络的特征和教师网络的特征具有相同的分布，也即是越相似也好，因此一个很自然的想法是约束学生和教师网络提取的同一张图像的特征之间的距离，这也就是作者提出的第一个蒸馏损失函数，作者称为absolute teacher：

回到度量学习上，度量学习的目的就是使得同类特征间的距离尽可能小，异类特征间的距离尽可能大，也即是说是约束特征间的距离，因此可以使用另一种更高效的蒸馏损失函数，约束教师和学生特征距离间的距离，也即是对于同样的两张图像，使得学生网络得到的它们间的距离和教师网络得到的它们间的距离，尽可能地像，这即是作者提出的第二个蒸馏损失函数，称为relative teacher