学习笔记：Learning Metrics from Teachers: Compact Networks for Image Embedding

最新推荐文章于 2024-10-16 01:06:03 发布

xiyue-

最新推荐文章于 2024-10-16 01:06:03 发布

阅读量232

点赞数 2

分类专栏： knowledge from logits 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/m0_59713773/article/details/130305278

版权

knowledge from logits 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本文提出了一种新的方法，通过网络蒸馏优化度量学习，特别是针对图像嵌入。通过设计两种损失函数，模拟深度教师网络与小型学生网络间的通信，结果显示这种方法能显著提高小型网络（如MobileNet-0.25）的召回率，从27.5%提高到44.6%。此外，研究还探讨了嵌入蒸馏的不同方面，包括提示、注意力层和半监督学习，证实了知识的有效迁移。

摘要由CSDN通过智能技术生成

摘要：度量学习网络用于计算图像嵌入，广泛用于图像检索和人脸识别等许多应用网络蒸馏已成功应用于改进图像分类，但几乎没有被探索用于度量学习。为此，本文提出了两个新的损失函数，它们模拟深度教师网络与小型网络之间的通信。在多个数据集评估后表明使用小型学生网络计算的嵌入比使用类似大小的标准网络计算的嵌入性能明显更好。在移动设备上使用的非常紧凑的网络（MobileNet-0.25）上的结果表明，所提方法可以将召回率结果从27.5%大幅提高到44.6%。此外，本文还研究了嵌入蒸馏的各个方面，包括提示和注意力层、半监督学习和交叉质量蒸馏。

相关知识：

度量学习（Metric learning）：

度量学习也可以叫距离度量学习、相似度学习。大多数计算机视觉应用的一个基本步骤是将图像的初始表示（即像素）转换为具有更理想属性的另一个表示。此过程通常表示为特征提取，并将图像投影到捕获与任务相关的语义特征的高级表示。

Figure 1. Graphical illustration of the two knowledge distillation losses we propose for metric learning. LabsKD aims to minimize the distance between the student and teacher embedding of the same image. LrelKD compares the distance in the embedding of the teacher between two images, with the distance of the same two images in the student embedding. It aims to make the two distances as similar as possible

特征嵌入：

特征嵌入简单来讲将数据转换为固定大小的特征表示，以便于处理和计算。为了取得成功，特征嵌入必须保持语义相似性，即用户认为相似的项目必须在嵌入空间中接近，尽管存在明显的视觉差异，例如视角、照明或图像质量。为了弥合语义域和视觉域之间的这种差距，使用相关和不相关项目的成对或三元组来教网络如何组织输出嵌入空间。发现嵌入在分布外检测和迁移学习的任务中有效

问题的提出：

深度神经网络拥有较高的性能，但是高计算成本有的时候让人望而却步
为了减少网络流量和服务器成本，以及实现可伸缩性，最好将尽可能多的计算放在应用程序的最终用户端，但是移动设备性能有限。

期望：将知识从大型网络迁移到较小网络并且性能没有显著下降。

本文的两个研究方向：

网络压缩（network compression）：网络压缩减少了网络中参数的数量
网络蒸馏（network distillation）：网络蒸馏使用教师-学生模型，通常是使用大型的教师网络来指导小型学生网络。其中指导的操作是利用损失函数来完成的，该函数最小化学生和教师网络输出之间的交叉熵以进行分类。

网络蒸馏与知识蒸馏的区别：

网络压缩的基本假设是网络的知识在权重中，而知识蒸馏假设网络的知识存在于由特定数据产生的激活中。
压缩算法通常最终具有与初始大型网络相似的网络架构，但参数更少（即层数和层类型相同）。相比之下，网络蒸馏对学生网络设计没有任何限制。本文-专注于网络蒸馏技术，以有效计算具有小型网络的特征嵌入。

分类网络的网络蒸馏目标定义为：

where λ is used to balance the importance of two cross-entropy losses H: the first one corresponds to the traditional loss between the predictions of the student network and the ground-truth labels ytrue, and the second one between the annealed probability outputs of the student and teacher networks. This loss encourages the student to make similar predictions as the teacher network

本文使用网络蒸馏来获得有效的网络来学习特征嵌入，向学生提出了两种不同的教学指标方式：