Deep Metric Learning 基本概念

迪士尼在逃法务96

于 2021-04-03 16:33:30 发布

阅读量1.5k

点赞数 4

分类专栏：深度学习学习笔记文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_29422755/article/details/115416750

版权

学习笔记同时被 2 个专栏收录

8 篇文章

订阅专栏

深度学习

4 篇文章

订阅专栏

本文详细介绍了度量学习的基本概念，包括其目标是学习一个距离函数，使得相同类别的样本接近，不同类别的样本远离。深度度量学习结合了深度学习的非线性特征表示能力，常使用CNN作为特征提取器，并通过对比损失函数或三元组损失函数进行训练。深度学习中的三元组损失函数有助于优化样本间的距离关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Deep Metric Learning

前言，我的研究方向要用到深度度量学习，但是一直以来对于度量学习只有一个模糊的概念。于是想办法把它弄清楚了，在这里将度量学习的基础概念记录在这里，如有不足之处还望批评指正。

度量学习

度量学习（Metric Learning）的主要目的是学习一个距离函数 $d(\cdot ,\cdot ):{{\mathbb{R}}^{k}}\times {{\mathbb{R}}^{k}}\mapsto {{\mathbb{R}}^{+}}$ ，该函数将两个 $k$ 维的输入向量映射为二者之间的距离。其中输入向量通常是输入图像或图像的特征表示。距离函数的形式为 $d{{(x,y)}^{2}}={{(x-y)}^{T}}M(x-y)$ ，其中 $M$ 是一个半正定矩阵，故该函数可分解为:

$d{{(x,y)}^{2}}\text{ = }{{(x-y)}^{T}}L{{L}^{T}}{{(x-y)}^{T}}={{\left\| {{x}^{T}}L-{{y}^{T}}L \right\|}^{2}} \tag{1}$

$L\in {{\mathbb{R}}^{k\times d}}$ 将图像或图像中的特征表示映射至一个 $d$ 维的特征空间。在这个特征空间中，语义相似的图像彼此离得很近，而语义不同的图像则彼此离得很远。
具体的，如下图所示，图中不同颜色的符号代表不同类的样本特征，左边的虚线圆代表原始空间，右边的虚线圆代表嵌入空间(Embedding Space)，通过度量学习，将原始空间中随机分布的样本特征映射到嵌入空间，且相似样本特征之间的距离大于不同类别样本特征之间的距离。

深度度量学习

深度度量学习（Deep Metric Learning）利用了深层架构（例如，CNN）的非线性特征表示能力和度量学习的区分性能力，在各种计算机视觉任务中得到了广泛的应用。这里以卷积神经网络（Convolutional Neural Network, CNN）为例进行说明，下文中提到的深度度量学习中的深层架构指的就是CNN。深度度量学习主要是学习一个形为 $\phi(\cdot):{{\mathbb{R}}^{k}}\mapsto {{\mathbb{R}}^{h}}$ 的非线性的变换。而这种基于CNN的特征提取器，即 $\phi(\cdot)$ ，可以预先在其他任务中进行预训练，然后在度量学习的数据集上进行微调。为了将特征表示映射到 $d$ 维的向量空间，通常在CNN特征提取器的末尾添加额外的线性嵌入层。该层的数学表达式如下：
$f(x)=\phi {{\text{(}x)}^{T}}W,\text{ }W\in {{\mathbb{R}}^{h\times d}} \tag{2}$
因此度量学习CNN将会学习一个距离函数 $d{{(x,y)}^{2}}={{(\phi (x)-\phi (y))}^{T}}W{{W}^{T}}(\phi (x)-\phi (y))$ ，该函数等价于 ${{(\phi (x)-\phi (y))}^{T}}M(\phi (x)-\phi (y))$ 。

深度度量学习常见的损失函数

为了同时学习CNN和嵌入层中的所有参数，通常使用基于图像对或三元组的特定的损失函数。

Contrastive Loss

在深度度量学习中最为常用的基于图像对的损失函数是对比损失函数（Contrastive Loss），其数学表达式如下：
${{J}_{contrastive}}=\sum\limits_{i,j}{{{\ell }_{ij}}{{D}^{2}}({{x}_{i}},{{x}_{j}})}+(1-{{\ell }_{ij}})h{{(\alpha -D({{x}_{i}},{{x}_{j}}))}^{2}} \tag{3}$ 其中， ${{\ell }_{ij}}\in \text{ }\!\!\{\!\!\text{ 0}\text{ 1 }\!\!\}\!\!\text{ }$ 当输入的图像对来自同一类时 ${{\ell }_{ij}}$ 为1否则为0。 $h(x)=\max (0,x)$ , $D({{x}_{i}},{{x}_{j}})$ 代表数据对 ${{x}_{i}},{{x}_{j}})$ 之间的欧氏距离。欧氏距离公式如下： $D({{x}_{i}},{{x}_{j}})\text{=}{{\left\| {{x}_{i}}-{{x}_{j}} \right\|}_{2}} \tag{4}$

Triplet Loss

而在度量学习中常用的基于三元组的损失函数是三元组损失函数（Triplet Loss）。该损失函数使用三元组数据 ${{x}_{a}},{{x}_{p}},{{x}_{n}})$ 进行训练，其表达式为： ${{J}_{triplet}}={{\sum\limits_{a,p,n}{h(D({{x}_{a}},{{x}_{p}})-D({{x}_{a}},{{x}_{n}})+\alpha )}}^{2}} \tag{5}$ 其中，三元组 ${{x}_{a}},{{x}_{p}},{{x}_{n}})$ 是由来自两个不同类别的三个样本所组成，将 ${{x}_{a}}$ 看做锚点构成正负数据对，正数据对 ${{x}_{a}},{{x}_{p}})$ 来自相同的类标签，而负数据对 ${{x}_{a}},{{x}_{n}})$ 来自不同的类标签。