度量学习DML之Cross-Batch Memory

胖胖大海

已于 2024-02-02 20:03:27 修改

阅读量1.4k

点赞数

分类专栏：度量学习 DML 深度学习文章标签： Cross-Batch 度量学习

于 2021-12-26 17:57:49 首次发布

本文链接：https://blog.csdn.net/cxx654/article/details/122158281

版权

深度学习同时被 3 个专栏收录

83 篇文章

订阅专栏

度量学习

13 篇文章

订阅专栏

DML

10 篇文章

订阅专栏

博客介绍了度量学习中的各种损失函数，如ContrastiveLoss、TripletLoss、LiftedStructureLoss、CircleLoss和Cross-BatchMemory等，强调了Cross-BatchMemory如何通过利用不同批次间的特征稳定性来扩大有效训练样本池，从而在有限的显存条件下提升模型性能。此外，还提到了数据增强技术如SpecAugment和MixUp对模型训练的积极影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

度量学习DML之Contrastive Loss及其变种_程大海的博客-CSDN博客

度量学习DML之Triplet Loss_程大海的博客-CSDN博客

度量学习DML之Lifted Structure Loss_程大海的博客-CSDN博客

度量学习DML之Circle Loss_程大海的博客-CSDN博客

度量学习DML之Cross-Batch Memory_程大海的博客-CSDN博客

度量学习DML之MoCO_程大海的博客-CSDN博客

数据增强之SpecAugment_程大海的博客-CSDN博客

数据增强之MixUp_程大海的博客-CSDN博客

基于pytorch-metric-learning实现的度量学习模板代码：pytorch-metric-learning-template

度量学习的目标：

相似的或者属于同一类的样本提取到的embedding向量之间具有更高的相似度，或者具有更小的空间距离
对于out-of samples的样本，也就是未见过的样本，希望也能提取到有效的embedding，也就是模型的泛化能力更好

Cross-Batch Memory（无痛涨点）

论文：《Cross-Batch Memory for Embedding Learning》

参考：跨越时空的难样本挖掘 - 知乎

通过前面分析的几种pair-based的损失函数可能看到，基于pair的损失函数通常在mini-batch中挖掘具有高价值的样本来进行模型训练，这样一来，在训练时使用的batch size越大，得到的模型的性能就越好，这在上述的一些论文中大部分作者都会提及到。但是，现实情况是，受限于计算资源、显卡显存、显卡数量等的限制，绝大部分用户在实际使用过程中根本无法达到有些论文SOTA结果使用的batch size，作者也通过实验验证了batch size对模型性能的影响：

Cross-Batch Memory的作者带来了一个优雅的解决方案。通过论文的题目可以看到，这是一个跨batch的方法。在我们的一般认知中，神经网络在训练过程中，不同迭代轮数得到的模型是完全不同的，他们之间基本上无法进行直接比较。比如对于同一张人脸图像，使用epoch=100和epoch=101分别提取两个embedding，然后比较他们之间的相似性，结果必然是非常不相似。但是本文作者在实验中发现了一个有意思的现象，就是随着网络模型训练的逐渐稳定，对于同一个样本在不同迭代之间得到的feature差异是趋于稳定的，作者给这个差异起了个名字叫漂移（Drift），通过计算同一样本在两个迭代之间的欧式距离来衡量feature在不同迭代之间的漂移：

作者实验发现，当网络模型趋于稳定是，即使两个迭代之间相差了1000轮，对于同一样本得到的特征之间的欧氏距离相差也是非常小的。作者把特征的这种现象叫做“slow drift”，“slow drift”自然而然的带来了一种启发，就是当网络模型趋于稳定之后，能不能使用连续的多个batch的输出结果组成的embedding集合，在这个集合之上进行难样本挖掘来训练网络。毕竟对于一张224 * 224的三通道图像来说，一个256维的embedding占用的显存是微乎其微的。通过这种巧妙的方式，无痛的增大了计算Loss时的batch。