学习笔记:Learning Metrics from Teachers: Compact Networks for Image Embedding

本文提出了一种新的方法,通过网络蒸馏优化度量学习,特别是针对图像嵌入。通过设计两种损失函数,模拟深度教师网络与小型学生网络间的通信,结果显示这种方法能显著提高小型网络(如MobileNet-0.25)的召回率,从27.5%提高到44.6%。此外,研究还探讨了嵌入蒸馏的不同方面,包括提示、注意力层和半监督学习,证实了知识的有效迁移。
摘要由CSDN通过智能技术生成

摘要:度量学习网络用于计算图像嵌入,广泛用于图像检索和人脸识别等许多应用网络蒸馏已成功应用于改进图像分类,但几乎没有被探索用于度量学习。为此,本文提出了两个新的损失函数,它们模拟深度教师网络与小型网络之间的通信。在多个数据集评估后表明使用小型学生网络计算的嵌入比使用类似大小的标准网络计算的嵌入性能明显更好。在移动设备上使用的非常紧凑的网络(MobileNet-0.25)上的结果表明,所提方法可以将召回率结果从27.5%大幅提高到44.6%。此外,本文还研究了嵌入蒸馏的各个方面,包括提示和注意力层、半监督学习和交叉质量蒸馏。

相关知识

度量学习(Metric learning):

度量学习也可以叫距离度量学习、相似度学习。 大多数计算机视觉应用的一个基本步骤是将图像的初始表示(即像素)转换为具有更理想属性的另一个表示。此过程通常表示为特征提取,并将图像投影到捕获与任务相关的语义特征的高级表示。

Figure 1. Graphical illustration of the two knowledge distillation losses we propose for metric learning. LabsKD aims to minimize the distance between the student and teacher embedding of the same image. LrelKD compares the distance in the embedding of the teacher between two images, with the distance of the same two images in the student embedding. It aims to make the two distances as similar as possible

特征嵌入

特征嵌入简单来讲将数据转换为固定大小的特征表示,以便于处理和计算。为了取得成功,特征嵌入必须保持语义相似性,即用户认为相似的项目必须在嵌入空间中接近,尽管存在明显的视觉差异,例如视角、照明或图像质量。为了弥合语义域和视觉域之间的这种差距,使用相关和不相关项目的成对或三元组来教网络如何组织输出嵌入空间。发现嵌入在分布外检测和迁移学习的任务中有效

问题的提出

  1. 深度神经网络拥有较高的性能,但是高计算成本有的时候让人望而却步
  2. 为了减少网络流量和服务器成本,以及实现可伸缩性,最好将尽可能多的计算放在应用程序的最终用户端,但是移动设备性能有限。

期望:将知识从大型网络迁移到较小网络并且性能没有显著下降。

本文的两个研究方向

  1. 网络压缩(network compression):网络压缩减少了网络中参数的数量
  2. 网络蒸馏(network distillation):网络蒸馏使用教师-学生模型,通常是使用大型的教师网络来指导小型学生网络。其中指导的操作是利用损失函数来完成的,该函数最小化学生和教师网络输出之间的交叉熵以进行分类。

网络蒸馏与知识蒸馏的区别:

  1. 网络压缩的基本假设是网络的知识在权重中,而知识蒸馏假设网络的知识存在于由特定数据产生的激活中。
  2. 压缩算法通常最终具有与初始大型网络相似的网络架构,但参数更少(即层数和层类型相同)。相比之下,网络蒸馏对学生网络设计没有任何限制。本文-专注于网络蒸馏技术,以有效计算具有小型网络的特征嵌入。

分类网络的网络蒸馏目标定义为:

where λ is used to balance the importance of two cross-entropy losses H: the first one corresponds to the traditional loss between the predictions of the student network and the ground-truth labels ytrue, and the second one between the annealed probability outputs of the student and teacher networks. This loss encourages the student to make similar predictions as the teacher network

本文使用网络蒸馏来获得有效的网络来学习特征嵌入,向学生提出了两种不同的教学指标方式:

  1. 一种基于绝对教师,学生的目标是产生与教师相同的嵌入
  2. 一种基于相对教师,教师仅向学生传达数据点对之间的距离

实验表明

  1. 与直接训练学生网络的数据相比,网络蒸馏可以显着提高检索性能。
  2. 相对教师的表现始终优于绝对教师。
  3. 可以访问高质量图像的教师可用于改善通过可以访问低质量图像的学生网络学习的嵌入。
  4. 验证了添加未标记数据以进行嵌入学习的好处

文献参考:Learning Metrics from Teachers: Compact Networks for Image Embedding

"学习指标来自教师:紧凑网络用于图像嵌入" 最近,研究人员提出了一种新的深度学习方法,通过从教师那里学习图像嵌入的紧凑网络。这种紧凑的网络结构具有很高的学习能力和计算效率,可以在训练过程中捕捉重要的图像特征。 所谓图像嵌入,是指将图像转换成低维度的特征向量。这个向量可以用来比较不同图像之间的相似性,或者作为输入传递给其他机器学习模型进行进一步的分析和处理。传统的图像嵌入方法通常基于手工设计的特征提取器,而这种新的方法则通过学习从教师模型中提取特征来实现。 在这种方法中,研究人员首先使用一个强大的教师模型对大量图像进行训练,以生成高质量的图像嵌入。然后,他们设计一个紧凑的网络结构,使用教师模型生成的嵌入向量作为目标。通过最小化教师模型与紧凑网络之间的距离,紧凑网络逐渐学会生成类似于教师模型的图像嵌入。 这种方法有几个优点。首先,它可以在不需要额外标记的情况下训练紧凑网络,因为教师模型已经提供了高质量的嵌入向量作为目标。其次,紧凑网络结构相对简单,计算效率高,可以轻松应用于大规模图像数据集。此外,通过从教师的知识中学习,紧凑网络可以获得更好的图像嵌入性能。 然而,这种方法也存在一些挑战。首先,选择一个合适的教师模型是关键。教师模型应该具有强大的特征提取能力,并且能够生成高质量的图像嵌入。其次,紧凑网络的结构设计也要考虑到充分利用教师模型的知识,并且要在保持计算效率的同时保持高质量的嵌入生成。 总之,学习从教师那里生成图像嵌入的紧凑网络是一个有前景的研究方向。通过从教师模型中学习,紧凑网络可以获得高质量的图像嵌入,为图像比较、分类和检索等任务提供有用的特征。未来的研究应该集中在提高教师模型的性能、设计更强大的紧凑网络结构,以及将这种方法应用于更广泛的领域。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值