Deep Metric Learning via Lifted Structured Feature Embedding
摘要 - 提出一种样本间距离度量方法,其出发点在于,(一)学习样本语义特征嵌入,使得在语义嵌入空间中,相似样本映射距离更接近,不相似样本映射距离更远. (二)更好的利用网络训练中 batch 训练的优势,提出将一个 batch 内样本的成对距离向量升级为成对距离矩阵(lifting the vector of pairwise distances within the batch to the matrix of pairwise distances). 问题被转化为了一个 multiclass label 问题.
1. Introduction
度量学习和降维技术,旨在学习语义距离度量和嵌入,以使相似的样本被映射为流形中邻近点,不相似的样本被映射为距离较远的点.
给定输入图像的标签标注信息,通过训练神经网络结构,直接学习输入图像到低维嵌入之间的非线性映射函数. 网络的优化目标是将不同类的样本间的距离变大,相同类的样本间的距离变小. 判别地训练的网络模型对特征表示和语义嵌入联合训练,对类间变化更加鲁棒.
现有方法不能充分利用网络 mini-batch SGD 训练中 training batches 的优势. 主要是首先随机采样 pairs 或 triplets,以构建 training batch,再对 training batch 中各独立的 pairs 或 triplets 计算 loss.
本文方法将 training batch 内的成对距离向量转化为成对距离矩阵,并设计一种新的结构化损失函数.
首先回顾了基于判别性网络训练来学习语义嵌入的方法.
1.1 Contrastive embedding
对比嵌入是在成对数据 (xi,xj,yij) ( x i , x j , y i j ) 上进行训练的.
contrastive training 最小化相同类别的成对样本间的距离,惩罚 negative 成对距离小于边缘参数 α α .
代价函数[1,2]定义:
J=1m∑m/2(i,j)yi,jD2i,j+(1−yi,j)[α−Di,j]2+ J = 1 m ∑ ( i , j ) m / 2 y i , j D i , j 2 + ( 1 − y i , j ) [ α − D i , j ] + 2
其中,
m m - batch 内图片数,即batchsize.
- 网络输出的特征嵌入.
Di,j=||f(xi)−f(xi)||2 D i , j = | | f ( x i ) − f ( x i ) | | 2