Survey and experimental study on metric learning methods

最新推荐文章于 2023-02-08 15:50:01 发布

「已注销」

最新推荐文章于 2023-02-08 15:50:01 发布

阅读量1.4k

点赞数

分类专栏：度量学习文章标签：度量学习

度量学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Li D, Tian Y. Survey and experimental study on metric learning methods[J]. Neural Networks, 2018.

2017-2018最新影响因子 7.197

摘要

距离度量学习由于其在提高距离相关方法（例如k个最近邻居（kNN））的性能方面高效性和高效率成为近来一项热门研究领域。度量学习旨在学习与数据相关的度量，以使类内距离更小，并使类间更大。已经针对各种应用提出了大量方法，并且评估和比较这些方法的调查是必要的。现有的调查只是在理论上分析算法，或者在实验上与狭窄的时间范围进行比较。因此，本文回顾了2003年至2017年间提出的经典和有影响的方法，并提出了基于每种方法最明显特征的分类法。所有方法分为五类，包括成对成本，概率框架，类似加速方法，有利变体和特定应用。进行了全面的实验研究，以比较所有选定的方法，探索提高准确性的能力，距离变化与准确度之间的关系，准确性与kNN邻居大小之间的关系。

1. Introduction

在机器学习中，测量相似性在进行预测时是有意义的，因为任何两个相似的模式可能具有相同的输出（标签，簇等）。在适当的相似性测量下可以正确地预测未知模式。距离是最常见的相似性手段之一，适用于经典的机器学习方法，包括kNN （Cover，1968; Cover＆Hart，1967）和k-means（Jain，2008; Likas，Vlassis，＆Verbeek，2001）。kNN和k-means的性能在很大程度上依赖于距离和欧几里德距离。然而，欧几里德距离平等地处理特征向量的所有分量，忽略它们在确定向量输出时的不同含义。例如，在面部识别中，两个面部图像之间的距离应该主要由鼻子，眼睛，嘴巴确定，而不是图像的所有分量。度量学习可以解决这样的任务，但其优势不仅限于此：（1）学习数据相关度量以区分不同属性的重要性可以更精确地描述相似性。（2）归一化在度量学习中是不必要的，因为它可以重新调整输入向量的每个组成部分。（3）当度量通过一个线性变换的转置乘以该线性变换被分解时，度量学习可以实现降维。（4）由于在度量学习中提取了监督和成对距离的所有信息，因此可以推广学习度量以很好地测试数据。距离度量学习自2003年以来已经发展，以提高距离相关方法的性能，并且由于其良好的有效性，最近引起了越来越多的关注。度量学习的基本思想是使每个点更接近具有相同标签的点，并且距离具有不同标签的点更远，即，尽可能地减少类内距离并放大类间距离。度量学习存在许多困难和挑战：（1）如何定义类内间距和类间间距。在类内距离最小化并且类间距离最大化的约束下学习期望度量。在获得度量的最优值时，类内和类间的定义很重要。（2）如何处理度量的半正定性约束。对于度量的完整性，适当的度量应该受到半正定性的约束。约束是优化的一大麻烦，导致高复杂性并且不易解决。（3）如何降低复杂性并使其尽可能低。在距离相关的方法中，应该使用成对距离的信息，这带来了高计算复杂度，尤其是当数据量非常大时。无论其有希望的性能如何，高复杂度的方法都是难以处理的。（4）如何将度量学习引入特定的应用程序。在传统的分类任务中，距离是用两个输出向量定义的，但具体应用，如多示例学习，多视图学习，多标签学习，模式不作为单一向量呈现，对这类任务的定义距离是一个挑战。

许多学者根据自己的理解提出了许多有效的算法来解决这些困难。在许多热门和重要的应用中，已经应用度量学习来获得更好的表现，包括面部识别（Cai, Wang, Xiao, Chen, & Zhou, 2012; Cao, Ying, & Li, 2013; Guillaumin, Verbeek, & Schmid, 2009; Hu, Lu, & Tan, 2014），行人再识别（Ma, Yang, & Tao, 2014; Paisitkriangkrai, Shen, & van den Hengel, 2015; Tao, Jin, Wang, Yuan, & Li, 2013; Xiong, Gou, Camps, & Sznaier, 2014），图像检索（Gao, Wang, Ji, Wu, & Dai, 2014; Hoi, Liu, & Chang, 2008; Hoi, Liu, Lyu, & Ma, 2006），图像注释（Feng, Jin, & Jain, 2013; Verma & Jawahar, 2012），图像集分类（Lu, Wang, Deng, Moulin, & Zhou, 2015; Lu, Wang, & Moulin, 2013），文档分类（Lebanon, 2006），目标检测（Dong, Zhang, Zhang, & Du, 2015; Du & Zhang, 2014a, b）。但没有一种方法适合所有任务，证实了无免费午餐定理（Shalev-Shwartz＆Ben-David，2014; Wolpert＆Macready，1997）。有必要对这些文献进行调查分析和比较，并对这些方法的选择提出建议。根据监督信息的可用性和度量的形成 (Bellet, Habrard, & Sebban, 2013; Kulis, 0000; Liu, 2006; Moutafis, Leng, & Kakadiaris, 2017; Wang & Sun, 2015)（线性或非线性），现有的大多数调查将度量学习方法分为几类。并且在这些调查中没有进行系统比较或经验验证的情况下提供简要分析。Moutafis等人从2011年到2013年，最近进行的实验调查仅涵盖了一些论文。它忽略了2011年之前提出的许多经典有效的方法。因此，在本文中我们更全面地进行实验调查，对以前的调查有所补充。在本文中，我们对2003年至2017年提出的距离度量学习文献进行了实验研究。所选论文全部发表在著名会议或期刊上，见表1.我们试图尽可能多地研究论文，但由于受到影响和论文的篇幅限制，高引文的论文更受青睐。我们将首先给出度量学习的分类，并简要介绍这些方法。算法被分为五类，成对成本方法，概率框架方法，类加速方法，有利变体和特定应用。本文的重点是探索这些方法在提高kNN分类性能方面的能力，填补了该领域的空白。该调查可视为先前调查的补充材料。

本文的其余部分安排如下。在第2节中，给出了度量学习的定义，并引入了总结概述，使读者熟悉以前的度量学习调查。第3节介绍了度量学习分类法，前面的方法将分别归为五个类别。在第4节中，将进行数值实验以比较所选方法在各种数据集上的性能。结论在第5节总结。

2. The nature of metric learning

在本节中，我们将描述度量学习的定义，然后介绍度量学习的简要历史。

2.1. Problem definition

在传统的机器学习中，距离相关方法的性能在很大程度上取决于距离测量。给定分类训练集

其中，是一个输入特征向量且是相应的标签。在kNN分类中，一个无标签样本通过它最近邻的样本的多数标签来预测。一般地，两个特征向量之间的距离被欧式距离（开根号）定义为：

由于欧几里德距离的缺点，它可以被改进为关于数据度量M的广义马氏距离，这可以通过训练数据学习。并且之间新的距离通过下式被计算：

其中，M应该满足四种条件，包括可区分性，非负性，对称性和三角不等式 (Royden & Fitzpatrick,1988;Wang&Sun,2014).简而言之，M必须是正半定的矩阵。关键是如何从手头的数据中学习所需的指标。度量学习的目标是使相似点更近，并使不同点更远。在监督条件下，在标签可用或半监督条件下，在给出成对标签关系的情况下，可以基于标签信息开发缩小类内距离和扩展类间距离的约束。可以在这样的约束或其变体下学习期望的度量。基于有监督信息，可以构造两种集合，相似集合

和不相似集合

度量学习中的所有方法都在以下两个优化的一个或两个方面做出影响，

一旦等式（2.6）中总的距离可以最小化和/或等式（2.7）中的距离可以最大化，每个样本更接近其类似的例子并且远离其不同的样本，从而导致kNN分类的预测准确性的改进。度量学习的概念图显示于图1中。

图1.度量学习的概念图。有两个类，橙色方块和蓝色圆圈。度量学习旨在将整个范围或局部邻域中的两个类别分开。（GMD表示广义马氏距离，w.r.t表示关于。）

因为任何半正定矩阵可以被分解为，然后等式（2.3）可以被写为

该等式表明广义马氏距离dM等于变换空间中的欧几里德距离。因此学习正半定量度量M相当于学习线性变换L.实际上，变换不仅限于线性情形，非线性变换可以获得更好的性能。在非线性映射下，之间的距离可以被定义为：

总之，广义度量学习意味着学习线性或非线性变换以将原始示例映射到新空间，其中类内距离缩小并且类间距离被扩展。然后kNN分类可以在变换空间中更好地执行。

2.2. A summary overview of metric learning

度量学习一直是机器学习的一个活跃话题，许多研究人员近年来进行了全面的调查，以强调度量学习的重要性。 Yang和Jin总结了从20世纪80年代到2006年提出的度量学习方法（Liu，2006）。他们认为流形学习是一种无监督的度量学习，因为流形倾向的主要思想是学习一种基本的低维流形，其中几何关系仍然保留。在有监督度量学习的讨论中，分别引入全局度量学习和局部度量学习。全局度量学习对整个数据集进行约束，但局部度量学习约束局部邻域中的数据点。由于SVM和度量学习之间的相似性，两者都旨在保持不同类之间的较大差距，因此引入了基于SVM的度量学习的一些变体。最后，总结了度量学习的核心方法。与先前的线性变换相关的度量学习方法相比，核方法进行非线性变换并提取非线性信息以获得更好的性能。该调查是度量学习方法的最早总结之一。但是，该调查中的许多方法已经过时，而且分类法过于笼统，无法显示方法的基本特征。 2012年，Brian Kulis在空间转换视角下对度量学习进行了调查（Kulis，0000）。在线性变换的情况下，引入了不同正则化器的正则化变换学习，包括F范数正则化器，线性正则化器和LogDet正则化器。详细解释了在度量学习中有用的优化技术。在非线性情况下，详细说明了线性方法的内核版本。最后，总结了度量学习的一些扩展，包括内核回归的度量学习，排序和降维。这项工作对度量学习进行了更深入的分析，尤其是数学公式的广义公共问题，如正则化，优化算法等。在2014年对特征向量和结构化数据的度量学习进行了调查（Bellet等，2013）。首先，介绍了受监督的Mahalanobis度量学习方法，并将它们分为几类，最近邻方法，信息理论方法，在线方法，多任务方法等。然后介绍了其他一些扩展和高度相关的主题，如非线性度量学习，局部度量学习，半监督度量学习，相似性学习。接下来的部分侧重于结构化数据的度量学习方法。度量标准被视为访问结构化数据的有吸引力的代理。之后，Wang和Sun在2015年总结了距离度量学习方法及其与降维的关系（Wang＆Sun，2015）。根据提供的标签信息，分别引入三类，无监督度量学习，有监督度量学习和半监督度量学习。以下章节总结了一些高级主题：在线度量学习，传递度量学习，贝叶斯主动度量学习。所提到的方法可以适合一般框架，以使读者更容易理解原则。上述调查一般只介绍现有方法，并对这些方法进行简要分析。他们没有在理论上或实验上对所提出的方法进行全面的比较。 Moutafis等人最近对度量学习方法进行了实证研究（Moutafis et al., 2017）。该研究重点关注2011年至2013年发表的文献，并将其分为五个类别：集合，非线性，正则化，概率和成本变量。在选定的LFW数据集上进行实验以比较不同方法的性能。实验调查不包括2011年之前发表的论文，这些论文在学习指标方面可能非常有效。仅对一个数据集进行的实验无法真正验证方法在全面改进kNN方面的能力。总之，研究范围太窄，应该扩展到更多的文献。因此，本文进行了一项实验调查，以弥补现有调查的不足，简要分析文献，并提供实验证据来验证这些文献的能力。提高kNN性能的方法。应该注意的是，在我们看来，流形学习不会改变原始空间的内在结构，也不能使用标签信息来改变类内间距和类间间距。因此，我们的论文中将不讨论无监督的度量学习。

3. Metric learning taxonomy

在本节中，提出了一种度量学习方法的分类法，以从各个方面审视该研究领域。我们研究的时间范围是从2003年开始，到2017年，首次采用监督学习的监督方法，到2017年。所有论文都选自顶级会议和期刊，如表1所示。根据他们最有区别的特点，选择的方法将分为五类：（1）成对成本，其主要思想是基于成对距离的成本构造优化问题。（2）概率框架，其中嵌入了概率思想。（3）类加速的方法，它将单个度量分解为多个弱度量的组合，以便于学习。（4）有利的变体。其他一些算法用于提高度量学习的性能。（5）具体应用。度量学习已应用于各种特定任务。

3.1. Pairwise cost

度量学习的基本思想是缩小类内距离，扩大类间距离。最直接的方法是根据成对距离的成本信息构造优化问题。对于给定的训练集（2.1）和定义的度量M，成对距离可以分为两类，类内距离，

应该最小化，以获得高凝聚力和类间距离，

应该最大化以获得高散射度。

具有成对成本的广义框架可以表示为

其中，分别代表类内距离和类间距离。且全是非负权重。在等式（3.3）中，第一个和第二个项表示类间距离和类内距离的全部代价。第三项根据类内间距和类间间距的加权差异/比率来衡量相对代价，这可以具体化为或者（C是一个正的权重）。成对代价类别中的度量学习方法可以分为两类，绝对成本和相对成本。

3.1.1. Absolute cost

该子类中的方法集中于优化绝对成对距离，给出类间距离的上限和/或类间距离的下限，或者仅最小化类内距离和/或直接最大化类间距离。最早的度量学习方法之一是由Xing，Jordan，Russell和Ng（2002）在2003年提出的，它将度量学习作为使用边信息的凸优化问题。这种方法在本文中被称为MLSI，旨在最小化类内距离，但条件是类间被限制在低于阈值。该问题通过迭代投影算法解决，导致高计算复杂度和耗时的收敛。 DML-eig（Ying＆Li，2012）被提出以对MLSI进行改进，其最大化不同样本之间的最小距离，其中类内距离受上限约束。主要问题可以转换为等效公式，表示为特征值优化。

Logdet-linear（Jain，Kulis，Davis，＆Dhillon，2012）和PCCA（Mignon＆Jurie，2012）都给出了相似对的距离的上界和不相对的距离的下界。它们之间的差异是成本函数，logdet-linear旨在最小化目标度量M与预定义度量之间的logdet偏差，同时PCCA寻求最大化每个距离与其对应边界之间的差异。 DDML（Hu，Lu，＆Tian，2014）结合了度量学习和深度学习的思想，通过构建多层神经网络来寻找多个非线性变换。类似点之间的距离需要小于预定义的常数减1并且不相似点之间的距离被迫大于.类似于PCCA，该方法使每个距离与其对应边界之间的总差异最大化使用逻辑损失函数。RCA（Bar-Hillel，Hertz，Shental，＆Weinshall，2005）直接最小化每个点与其对应的类中心之间的距离之和。

3.1.2. Relative cost

鉴于kNN，类内距离和类间距离的绝对值不是那么重要，因为未标记样本的正确预测是由于类似点比样本的不同点更接近。简而言之，类内距离小于类间距离这个事实有利于kNN。因此，考虑到相对距离，开发度量学习方法是有希望的。如果公式（3.3）中的，类内距离和类间距离的加权差异是成对成本中的重要术语。最小化相对成本尽可能地强制类间距离大于类内距离。使用相对成本学习度量的最直接的方法是令并且只是优化SMLP (Rosales & Fung, 2006), CMM (Wang, 2011), FrobMetric (Shen, Kim, Liu, Wang, & Van Den Hengel, 2014), DML (Hu, Lu, & Tan, 2016) 和MLLS (Song, Xiang, Jegelka, & Savarese, 2016)被提出以最大化平均类内距离和类间距离之间的差异。F范数的正则化器被放置在SMLP和FrobMetric中以学习稀疏度量。线性编程方法用于求解SMLP。在SDML（Qi，Tang，Zha，Chua，＆Zhang，2009）中使用L 1 -处罚对数行列式正则化来学习有效的稀疏度量。由于任何半正定矩阵可以被分解为CMM最初的问题可以通过强制等于单位矩阵进行特征值分解可以解决。在FrobMetric中，导出有效的双重方法以获得期望的度量。 DML通过神经网络学习非线性距离度量。在MLLS中实现了提升结构化特征嵌入，以实现高识别能力RDC(Zheng, Gong, & Xiang,2013)也逐个地最小化相对误差，而不是逻辑损失函数。为了更简单的解决优化问题，度量的任意两个列向量的内积被强制为零。 LRML（Hoi等人，2008）将未标记示例的成本放入从半监督问题中学习度量的原始相对成本。可以将和之间的加权差异置于具有目标函数中的成本变量的约束中。通过强制 LDMRC (Schultz & Joachims, 2004) and SML (Ying, Huang, & Campbell, 2009) 针对于最小化度量的范数或者他的因子。但是， LMNN (Weinberger, Blitzer,&Saul,2005)和LMCA(Torresani&Lee,2006)只是优化类间距离，其中LMNN的一个变体，称为mLMNN，这是与LMNN一同被提出，学习用于每个类别的多个度量，因为全局线性变换可能不足够强大，以提取特定于类的信息。 PLML（Wang，Kalousis，＆Woznica，2012）是LMNN的多度量版本，每个度量对应于局部区域。 LMNLM（Chai，Liu，Chen，＆Bao，2010）是LMNN的一种变体，它使每个样本尽可能地接近其相应的类质心，并且远离其他质心。采用保持原理的原则，RSSML（Wang，Yuen，＆Feng，2013）从半监督问题中获得所需的度量。类内距离和类间距离的比率也可以用作相对成本。 DCA（Hoi等人，2006）和MLPC（Baghshah＆Shouraki，2009）是采用这种比率的两种经典方法。但是在MLPC中，寻求额外的目标，即应该最小化线性重建误差。两种方法都可以被核化以从训练数据中提取非线性信息。与MLPC类似，RMML（Lu，Wang，Deng，＆Jia，2015）是一种基于重建的多重学习方法，其目的是使类内重构残差尽可能小，并使类间重建残差尽可能大。

3.2. Probabilistic framework

基于概率论的概率框架构造优化问题的方法，使用距离信息。该方法首先根据距离和度量定义概率分布，，然后通过最大似然估计（MLE）建立目标函数

或者使用预定义和理想的分布匹配分布

其中，是预定义的矩阵，且测量两种分部之间的差异，一种普遍的函数是KL差异。MLE的思想被使用在NCA, KISSME, LDML, RS-KISS, LCA, LDM和SERAPH中。并且MCML和ITML尝试匹配两种概率分布。 NCA (Goldberger, Hinton, Roweis, & Salakhutdinov,2004) 基于每个点选择另一个点作为邻居的思想来定义概率分布，概率与它们的距离相关。在NCA中，每个点与其邻居相似的概率最大化。该方法受到高计算复杂性的影响，因为优化了留一法性能。 NCA已经发展成两种变体（Hong，Li，Jiang，＆Tu，2011）：稀疏版和混合版。度量的跟踪范数被添加到稀疏模型中。在混合模型中，采用分而治之的方法，并学习多个度量以适应不同的局部区域。 MCML（Globerson＆Roweis，2005）和LDM（Yang，Jin，Sukthankar，＆Liu，2006）基于类似对和不相似对的距离信息将类似的概率分布定义为NCA。 MCML旨在最小化定义分布与理想“双层”分布之间的Kullback-Leibler差异，该分布试图将相似点折叠到单个点并将不同点推向彼此远的距离。在LDM中，使用最大对数似然估计，并且应用约束优化算法（Salakhutdinov＆Roweis，2003）来解决该方法。 NCMML（Mensink，Verbeek，Perronnin，＆Csurka，2013）提出在多类逻辑回归的基础上，使用每个样本与其对应的类质心之间的距离。正确预测的对数似然性将被优化以学习度量。类高斯概率分布ITML（Davis，Kulis，Jain，Sra，＆Dhillon，2007），KISSME（Koestinger，Hirzer，Wohlhart，Roth，＆Bischof，2012）和LCA（Der＆Saul，2012）采用了近似真实分布的方法。在ITML中，两个多元高斯之间的相对熵，分别由目标度量和预定义度量参数化的方法被最小化。并且包含了成对距离受绝对边界限制的约束。 KISSME从统计推断的角度构建对数似然比检验。距离度量可以通过投影和特征分析获得。 RS-KISS（Tao等，2013）对KISS进行了改进，KISS结合了稳健矩阵的正则化和平滑技术。 LCA将潜在变量引入到概率分布中，该概率分布可以在具有较低维度的潜在空间中定位示例。LDML（Guillaumin等，2009）使用sigmoid函数定义了两个点相似的概率，通过两个点的距离进行参数化。构建的线性判别模型可以通过梯度下降来优化。与ITML类似，SERAPH（Niu，Dai，Yamada，＆Sugiyama，2014）也是一种信息理论方法，其中标记数据上的概率的熵最大化并且未标记的数据被最小化。 BAYES（Yang，Jin和Sukthankar，2012）估计了贝叶斯框架的后验分布。 SCA（Changpinyo，Liu，＆Sha，2013）构建了概率图模型。

3.3. Boost-like methods

在度量学习中，半正定的约束对目标度量是完整性的必要条件。然而，约束很难处理，这常常导致难以处理的解决方案或非常耗时的算法。类似Boost的方法试图将依赖于数据的度量分解为具有弱约束的子度量的线性组合，即，

其中，是可以用一种更简单的方法进行学习的矩阵。一般地，被限制为迹一秩一矩阵。目标度量可以被视为强大的学习者，而子度量是弱学习者。可以通过逐渐添加弱学习者来生成强大的学习者。 BoostMetric（Shen，Kim，Wang，Hengel，2009），DRMetric（Liu＆Vemuri，2012）和MetricBoost（Bi等人，2011）将一个正半定矩阵分解为一个半正定矩阵的凸组合，并采用不相似对之间的距离应尽可能大于相似对之间距离的思想。 BoostMetric构造了一个指数损失和迹正则项的非线性问题。应用坐标下降优化来解决拉格朗日双重问题，以及通过特征分解得到的基础度量。DRMetric旨在最大限度地提高线性公式的软边际，并将正则化变量添加到主要问题或解决方案的双重问题中。 MetricBoost最小化整体错误率，其特征在于给出三元组的分布以及关于三元组上的相对距离信息的指示符函数。采用二分策略来降低该方法的计算成本。 REMetric（Kozakaya，Ito，＆Kubota，2011）基于集成学习方案提出，其优化用于采样训练数据的局部目标函数。整个训练数据是随机二次采样的，并且从线性支持向量机中学习多个判别投影向量。通过组合这些向量获得目标度量。BoostMDM（Chang，2012）定义了带有θ-剪切损失函数的留一法错误，并通过迭代地将基础学习者添加到度量来学习度量。 EM算法（Moon，1996）用于获得解决方案。

3.4. Advantageous variants

在本节中，我们将介绍度量学习中的各种变体，它将度量学习与其他学习框架相结合，以提高仅使用度量学习技术的分类模型的性能。 POLA（Shalev-Shwartz，Singer，＆Ng，2004），LEGO（Jain，Kulis，Dhillon，＆Grauman，2009），SOML（Gao，Hoi，Zhang，Wan，＆Li，2014）和MDML（Kuna-puli＆Shavlik， 2012）所有通过在线学习学习距离度量，其中约束可递增地获得并且可以使用更新规则获得度量。对于时间t，模型接收几个样本，度量可以通过下式更新

其中，Q是通过和产生的矩阵。在线学习的好处有几个好处：（1）它们可以处理大规模的问题;（2）更新可以保证正半定的性质; （3）对于数据流的问题，可以及时更新度量。因此，度量学习和在线学习的结合在分类中获得了竞争性。 POLA迭代地接收实例对并使用伪度量计算它们的相似性，然后通过连续投影到正半圆锥上并通过接收的示例施加的半空间约束来更新伪度量。LEGO 基于LogDet正则化和梯度下降更新目标度量。该方法在在线案例和离线案例中都表现良好。 SOML学习通过在线梯度下降更新的稀疏距离函数，以处理高维图像数据。稀疏性和高性能的优点。计算效率使模型与其他方法竞争。 MDML是一种在线正则化度量学习，基于复合物镜像下降的框架更新度量。它可以扩展到大规模数据集并且可以内核化非线性度量学习。结构学习与MLR（McFee＆Lanckriet，2010）和R-MLR（Lim，Lanckriet，＆McFee，2013）中的度量学习相结合，优化W以最小化一个排序损失函数在由距离引入的排列Y上。受 structural SVM (Joachims, Finley, & Yu,2009; Yu & Joachims, 2009)的启发，MLR将最近邻居的预测问题作为排名问题，并将预测标签上的错误率视为损失函数。 R-MLR是对MLR的强大扩展，在学习的度量上强制执行组稀疏性。当存在大比例冗余特征时，它可以识别信息特征。为了从输入特征中提取非线性信息，通常直接应用非线性变换或在内核公式中将原始特征映射到新空间.GB-LMNN（Kedem，Tyree，Sha，Lanckriet，＆Weinberger，2012）和DNLML（Cai等人两者都直接引入非线性映射来学习度量.GB-LMNN应用梯度增强来学习非线性变换，而不是传统的线性变换，以缩小类内距离并扩展映射空间中的类间距离。该方法具有鲁棒性，速度和不敏感性的优点。 DNLML构造了一个多层神经网络，并通过非线性激活函数进行非线性变换。在变换的空间中，优化两个点相似或不相似的概率。 MLKR（Weinberger＆Tesauro，2007），ML-MKL（Wang，Do，Woznica，＆Kalousis，2011），KDML（He，Chen，Chen，＆Mao，2013），MKMLR（Galleguillos，McFee，＆Lanckriet，2014）和EWFC（Wang，Deng，Choi，Jiang，Luo，Chung，＆Wang，2016）将核函数引入到度量学习中以从核心化数据中学习度量。在新的空间中，该方法引入非线性映射φ并学习度量M（或线性变换L）。之间的距离可以被表示为：

如果M可以被参数化为，那么核函数可以被引入。因此，内核学习将嵌入到度量学习中，以获得更好的性能。 MLKR学习基于距离的核函数的距离度量，以提高非线性回归的性能。最小化留一法的回归误差以获得最优度量。在KDML中应用核密度估计来进行非线性映射，并且从新空间学习距离度量。 KDML不仅可以处理数字特征，也可以处理分类。在ML-MKL中实现了具有多个内核的度量学习，因为传统度量学习中的线性变换并不总是合适的，并且预定义内核限制了该方法的表达性。 MKMLR采用多核学习和度量学习，有效地将异构特征集成到最近邻居设置中。 EWFC（Wang et al。，2016）在复合内核空间中结合了软子空间聚类和度量学习。 MPCK-means（Bilenko，Basu，＆Mooney，2004）首先通过K-means将整个数据集划分为多个聚类，然后通过最小化聚类分散来学习每个聚类的度量。局部度量标准可以提取更多信息以获得更好的性能。 MDM（Yu，Jiang，Zhang，2011）的目标是最大化最小的类间距离，这是在两个类质心之间测量的。 MLMNP（Sohn，2016）构造了多类N对损失，以解决对比损失和三重态损失中出现的收敛缓慢的问题。已经提出了关于度量学习的一些其他扩展，包括图学习（JLLDM（Liu，Wang，Hong，Zha，＆Hua，2010）），哈希学习（HDML（Norouzi，Fleet，＆Salakhutdinov，2012）），相似性学习（Sub-SML（Cao et al。，2013）），特定距离函数（P / S-SDML（Zhu，Zhang，Zuo，＆Zhang， 2013）），新的经验风险函数（LLML（Bian＆Tao，2011））。

3.5. Specific applications

由于测量相似性的能力很强，度量学习已经应用于不同的特定应用，包括多示例问题，多视图问题，多任务问题，多标签问题，迁移学习，以获得更好的性能。

多示例问题是一种特殊的分类任务，其中每个示例都表示为一个包，一个包含多个实例的集合。如果至少一个实例为正，则将袋标记为正，否则为负。袋之间的相似性是多实例学习中的重要问题。学习依赖于数据的袋距离函数可以改善现有技术方法的性能。 MildML（Guillaumin等人，2010），MIML（Xu等人，2011）和MLMIML（Jin等人，2009b）都将度量学习引入多示例问题。对于多视图学习，每个训练样本都提供有多个视图，这些视图的信息不同但可能是互补的。整合不同观点以提高学习性能是一项挑战。由于度量学习可用于在单个视图上使用数据相关度量进行相似性度量，因此学习多个度量是易于理解的，由于不同视图中的异构特征，每个度量对应于单个视图。有几种方法在多视图度量学习中付出了努力，包括（Hu，Lu，Yuan等，2014），SSM-DML（Yu等，2012），HMML（Zhang等，2013）。多任务问题是一种联合学习，多个任务是并行学习但相互作用。机器学习中的传统学习范式是单一任务学习，只输出一个模型。多任务学习，通常源于一个复杂的问题，无法通过单个模型解决，构建多个模型并组合这些模型来处理源问题。对于每个子任务，可以学习所需的度量，但是之间的连接应考虑不同的指标。 mt-LMNN（Parameswaran＆Weinberger，2010），mt-von（Yang et al。，2013）和mtMCML（Ma et al。，2014）可以解决这样的问题。多标签问题是一种分类任务，其中每个示例由多个标签标记，并且每两个示例可以具有相似和不相似的标签。这个问题中两个例子之间的相似性尚未确定，这对度量学习提出了挑战。三种方法，MLMIML（Jinetal。，2009b），LC2I-L1（Wang，Gao et al。，2012），LM-kNN（Liu ＆Tsang，2015），尝试通过学习度量来解决多标签分类问题。迁移学习旨在通过源域数据训练的模型预测目标域数据。通过将通用度量从源域转移到目标域中的特定度量，可以在该字段中应用度量学习。通用度量标准所携带的信息可用于增强特定度量标准的能力。 TML（Li et al。，2012），（Wang，Jiang，et al。，2012）和CDML（Wang et al。，2014）使转移度量学习具有竞争性。学习应用于其他应用，包括结构化问题（HDLR（Davis＆Dhillon，2008）），无监督问题（USML（Cinbis等，2011）），图像标注（2PKNN（Verma＆Jawahar，2012）），3D物体检测（3DML（Gao等，2014）），图像集分类（LMKML（Lu等）。，2013）），回归（Bag-SVRML（Zou et al。，2014）），分区问题（MLPP（Lajugie等，2014）），分类学特定问题（AggkNN（Verma等，2012））和图像排序（DeepMDML（Yuetal。，2016））。接下来，我们将使用属性分类法给出上述度量学习方法的摘要：

•L / G（局部或全局）：约束是在局部或全局视图上构建的;
•L / N（线性或非线性）：线性意味着该方法学习度量M或变换L，非线性意味着在该方法中使用或学习非线性变换φ;
•DR（降维）：该方法是否可以降低维数;
•R / A（相对距离或绝对距离）：优化问题受相对距离或绝对距离的限制;
•RT（规则化术语）：目标函数中是否存在正则化术语;
•SP（监督模式）：该方法用于监督问题，半监督问题或无监督问题;
•KE（内核扩展）：是否对方法进行了内核扩展;
•CR（引用比率）：引文数与其发布年份数之间的比率（2017年减去其出版年份）。

本文所参考的全部度量学习方法已经按时间排列在表2中。

4. Experiments

在本节中，将进行数值实验以全面比较度量学习方法。我们将首先选择经典和有影响的算法，然后在代表性数据集上设计不同的实验。将分析实验结果以比较模型性能并评估所选方法在学习信息度量中的能力。

4.1. Algorithms selected and settings

我们将根据我们的理解，考虑其引用率和代表性，在每个类别中选择代表性方法进行比较。对于成对成本的类别，考虑绝对成本的三种方法，MLSI，DML-eig和PCCA，并选择两种相对成本方法，LMNN和SPML。 MLSI和LMNN是两种最流行的度量学习方法，它们被引用超过一千次。 DML-eig是通过特征值分解解决的特定方法，导致低计算复杂度和竞争性能。 PCCA构造了关于线性变换的无约束优化问题。 SPML从保留结构的网络中学习度量。由于其在提取类特定信息方面的典型性和优势，将选择mLMNN。在概率框架领域，考虑了七种方法：NCA，MCML，ITML，LDML，KISSME，NCMML，SERAPH。 NCA和MCML是最早使用概率框架的两种方法。基于信息理论，ITML被提出具有较低的训练时间。 LDML和KISSME是两种简洁优化配方的方法，它们分别具有明确的任务，面部识别和大规模问题。关于类似Boost的方法，选择BoostMetric和MetricBoost是因为它们具有最高引用率。对于Advantageous Variants中的方法，选择了三种算法：MLR，GB-LMNN和Sub-SML。使用欧几里德距离（Eucl）的kNN分类作为基线方法。因此，总共有19种方法将被评估并相互比较。

算法设置如下所示。在MLSI中，最大迭代是10.在DML-eig中，和被分别设置为10^-4和10^-3.对于PCCA，逻辑损失函数的参数被设置为1并且学习率在LMNN中，邻域大小K是25且SPML中的正则化参数是10^-6。对于mLMNN，最大迭代式200.在ITML中，松弛参数是0.1.在BoostMetric中被设置为10^-7.

4.2. Experimental design and datasets

在本节中，我们将做三组实验来评估这些方法的能力。首先，给出一个样例来验证这些被挑选的方法在映射原始样本到一个新的空间以提高 Eucl表现的影响。两种典型的数据集， Three1 和 Moon，被用于测试映射能力。两种数据集由 Python 3.6使用sklearn.datasets library得到。两种数据集包含3类500个示例。对于Eucl,kNN分类（k=3）被实现。对于所有的其他方法，使用默认设置学习所需度量，然后应用于3NN分类。

其次，将对基准数据集进行度量学习，以比较提高Eucl分类性能的能力。我们已经挑选了18个基准数据集，这些在分类中被广泛使用，从UCI库（http://archive.ics.uci.edu/ml/index.php）到LIBSVM网站（https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/）。这些数据集的统计量被显示在表3中，包含示例的数量，属性，类别和每一类中示例的数量。每种数据集的名称被缩写为两个字母。

第三，我们将探索该方法在改变类内距离和类间距离的能力以及kNN分类的邻域大小的关系。两种著名的图像数据集，Corel 和Caltech被挑选以实现实验。 Corel包含10类500张图像，建筑，巴士，恐龙，大象，脸，花，食品，马，天空和雪山。每张图像的大小为384*256或者256*384. Caltech由6类900张图像组成，飞机，汽车，脸，树叶，摩托车和黑板。图2显示了来自Corel 和Caltech中的图片以及对应的类。LBP特征 (Ojala, Pietikäinen, &Mäenpää, 2002)从数据集中被提取且提取的特征向量维数是4096维。PCA技术(Jolliffe,1986)以预处理特征向量以用于较低维度和较少训练时间。每幅图像的维数减少到300。

4.3. Model performance comparison

在第一个实验中，Three1和Moon的变换点已在图3和图4中描绘。每个子图的标题括号中的数字表示分类准确度。从散点图中可以看出，所有的度量学习方法都可以改变数据分布，尽管这些数据信息产生的相同分类精度可以通过方法真正提取出来。但不幸的是，只有11和7种方法分别在Three1和Moon上比Eucl表现更好，这表明并非所有方法都可以始终获得信息度量。可以解释的是，并非所有示例都能严格地满足约束条件，推动不相似的点可能使它们更接近其他不同点。当然，这种情况取决于方法和数据集。

第二个实验是全面比较所选方法。三个指标用于评估：

1、预测准确率：

其中分别是第i个测试点的预测的标签和真实的标签，m是测试集的大小。

2、AUC，接收器工作特性曲线下面积，通常用于评估二元分类器.AUC值越大，分类器越好。 AUC对类不平衡的情况不敏感。

3、训练时间TM，用于显示方法的计算效率。

如图3所示。 Three1散点。原始点显示在（a）中，并且具有相应变换的变换点分别显示在（b） - （r）中。

图4.Moon的分散点。原始点显示在（a）中，并且具有相应变换的变换点分别显示在（b） - （r）中。

所有实验结果在表4中给出。对于每种方法，三行分别表示ACC，AUC和TM。通过计算十次随机分区的结果的平均值来获得每个值。在每个分区中，随机选择70％的点用于训练，左侧用作测试集。下标中的值是十个结果的标准差。每个数据集的最佳值以粗体显示，第二个数据以下划线标记。对于ACC，GB-LMNN获得五个最佳结果，并且LMNN和KISSME在三个数据集上都表现最佳。对于AUC，MCML和GB-LMNN都在三个数据集上获得最大的AUC。对于TM，ITML在除Arrhythmia之外的几乎所有数据集上运行最快。结果验证了非线性度量学习在提取有用度量方面比线性度量学习具有更大的优势。然而，非线性度量学习往往需要更多时间来获取数据依赖信息。六个数据集的ROC曲线如图5所示。大多数曲线具有相似的趋势，它们之间几乎没有差异。

CMC和Wine的度量标准可视化用于显示欧几里德度量与学习度量之间的差异。从CMC和Wine中学到的指标显示在图6和图7中。每个度量标准由网格映射表示，其具有与度量标准相同的行数和列数。每个网格表示矩阵的相应位置中的值。每个地图右侧都有一个颜色条，相应的值从下到上变得越来越大。地图可以反映度量的所有条目之间的相对差异。在图6中，从DML-eig，MCML，KISSME，Boost-Metric获得的度量比CMC数据集上的欧几里德度量更好。它们有一个共同的特征，第四列和第四行的值比它的邻居大得多。它表明这些方法可以从数据集中提取类似的信息。在图7中，LMNN，SPML，DML-eig，NCA，MCML和SERAPH在Wine数据集上的表现优于Eucl。类似地，LMNN，SPML，DML-eig和MCML的度量共享类似的特征，即第七列和第七行中的值大于其邻居。该字符在NCA和SERAPH中不存在，这可以通过信息度量可以呈现为不同的形式来说明。

为了清楚地探索关于ACC和AUC的不同方法之间的统计差异，应用Wilcoxon检验来比较每对算法。显著性水平α= 0.1被使用。对于每个数据集，将进行成对比较，如果方法明显优于另一个方法，则获得1分，如果两种方法之间没有统计差异，则获得0.5分。表5中给出了获胜，平局和失败的数量。这些方法根据总得分的顺序列出。平均TM从低到高排序，等级显示在表5的最后一列中。可以看出GB-LMNN，MCML和SPML分别对ACC和AUC执行第一，第二和第三。但这三种方法都是以高计算复杂度实现的。 BoostMetric，LMNN和SERAPH获得几乎相同的性能，在ACC和AUC中排名前七。 BoostMetric，LMNN和SERAPH的时间等级分别为第四，第八和第九。七种方法，PCCA，mLMNN，MLSI，MetricBoost，Sub-SML，MLR和LDML，表现比Eucl差，验证了他们从基准数据集学习信息量度的能力弱。值得指出的是前四种方法到ACC属于不同的类别，它们验证来自不同视图的学习度量总是可以达到理想目标。对于成对成本的类别，LMNN和SPML比DML-eig，PCCA和MLSI表现更好，表明使用相对距离成本的学习度量在绝对距离成本之前。对于在ACC上表现优于Eucl的11种方法，有6种属于概率框架的类别。使用距离信息来获得有利的概率分布可以更容易地学习更好的度量。BoostMetric和MetricBoost分别比Eucl表现得好得多，差得多，证明了度量分解应该有条理地实现。由于非线性特征变换，GBLMNN在ACC和AUC上都表现最佳。 Sub-SML和MLR表现不佳，可能是因为它们仅适用于特定数据集。

总之，关于ACC和AUC的前三个等级的方法是：（1）GBLMNN，MCML和SPML; （2）BoostMetric，LMNN和SERAPH; （3）NCA，ITML和DML-eig。考虑到复杂性，上述方法可以分为三个等级，第一个是ITML，DML-eig和BoostMetric。第二个包含LMNN，SERAPH和SPML。 MCML，NCA和GBLMNN是三种最慢的方法。对于度量学习方法的选择，建议对大型ACC和AUC使用GB-LMNN，MCML和SPML。建议使用BoostMetric，LMNN和SERAPH进行快速训练和相对较高的精度。

此外，为了验证所选方法在大规模数据集上的分类能力，我们对6个大规模数据集进行了实验。表6中给出了数据集的统计数据。从表4中，我们可以看到大多数方法不适合大规模问题，因此只选择时间排在前8位的方法。分类结果如表6所示。对于每种方法及其相应的数据集，第一个数字表示ACC，其下标表示3折交叉验证的标准偏差，第二个数字表示平均训练时间。可以看出，BoostMetric和LMNN的性能分别排在第一和第二位。结果与先前的评估一致。对于大规模数据集，ITML，DML-eig和BoostMetric运行速度比LMNN快得多，但前两者的性能比LMNN差。 NCMML比Eucl执行得更糟，可能是由于使用类质心计算距离会在大规模问题中丢失很多有用的信息。

在第三个实验中，对于所有方法，学习的度量将应用于具有从集合{1,3,5,7,9}中选择的不同邻域大小k的kNN分类。相应的ACC如表7所示。对于每个邻居大小，表现最佳，第二和第三的方法将分别以粗体，下划线和斜体标记。可以看出，LMNN表现最佳十次，DML-eig，SERAPH和MCML分别表现最佳六次，三次和二次。结果与表5中的Wilcoxon测试非常不一致。一个合理的解释是图像是非结构化数据，LMNN擅长处理这类数据。非线性度量学习GBLMNN的性能不如基准测试数据集。综合而言，LMNN，SERAPH和MCML表现出色基准数据集和图像集相对较好。

括号中的数字是相对于Eucl的相对增长率（RRG），

其中，代表度量学习方法的ACC，且代表 Eucl.的ACC。

红色数字是相应方法中最大的RRG。对于Corel，当k = 7时，8种方法获得最大的RRG。当Caltech中k = 9时，10种方法获得最大的RRG。适当的推论是每个数据集对应于邻居大小，度量学习方法可以大大提高kNN的性能。由于度量学习相当于将原始示例转换为新空间，因此转换空间中每个类的类间距离与类内距离的比率如图8所示。与Eucl相比，表现优于Eucl的方法总能扩大几个甚至所有类别的比例。不同图案之间的距离被扩大，相似点之间的距离缩小。因此，类间距离与类内距离的比率可以用作评估学习有用度量的能力的指标。

5. Conclusions

在本文中，进行了一项实验调查，以比较不同度量学习方法的性能。首先，提供了分类法，并根据其最杰出的特征将方法分为五类：成对成本，概率框架，类加速方法，优势变体和特定应用。对于每个类别，从著名的期刊和会议中选择几种经典和受影响的方法。所提出的分类法可以帮助学者在度量学习中系统地理解这些方法，然后考虑每个类别的优点和缺点提出新的方法。在实验中，评估了18种代表性方法，并且从统计学角度比较了基准数据集的分类性能。然后选择图像数据集来探索分类精度和邻域大小之间的关系以及精度和距离变化之间的关系。已经证实，没有一种方法可以在所有数据集上表现最佳，但实验结果提供了证据表明几种方法在学习信息度量方面具有很高的能力。我们将对度量学习方法的选择提出一些建议：（1）作为相应类别中的三种代表性方法，首先推荐BoostMetric，LMNN和SERAPH，因为它们在统计分数（ACC和AUC）方面表现第二，计算时间相对较短; （2）在寻求高ACC和AUC时推荐使用GBLMNN和MCML，计算成本是次要因素。但对于非结构化数据，如图像数据集，GBLMNN不是一个好的选择; （3）由于计算复杂度低得多，因此在学习大规模数据集的度量时，ITML和DML-eig是两个不错的选择。（4）不建议使用MLSI，Sub-SML和MLR，因为它们在ACC和AUC方面都表现不佳，也没有快速训练。此外，为了尽可能地挖掘每种方法的潜力，应该将学习的度量应用于具有不同k的kNN，并选择具有最高分类精度的kNN。

Acknowledgments
This work has been partially supported by grants from National
Natural Science Foundation of China (Nos. 71731009, 61472390,
71331005, and 91546201), the Beijing Natural Science Foundation
(No. 1162005).
References
Baghshah, M. S., & Shouraki, S. B. (2009). Semi-supervised metric learning using
pairwise constraints. In IJCAI, Vol. 9 (pp. 1217–1222). Citeseer.
Bar-Hillel, A., Hertz, T., Shental, N., & Weinshall, D. (2005). Learning a mahalanobis
metric from equivalence constraints. Journal of Machine Learning Research
(JMLR), 6(Jun), 937–965.
Bellet, A., Habrard, A., & Sebban, M. (2013). A survey on metric learning for feature
vectors and structured data, Computer Science.
Bi, J., Wu, D., Lu, L., Liu, M., Tao, Y., & Wolf, M. (2011). Adaboost on low-rank psd
matrices for metric learning. In 2011 IEEE conference on computer vision and
pattern recognition (pp. 2617–2624). IEEE.
Bian,W.,&Tao,D.(2011).Learningadistancemetricbyempiricallossminimization.
In IJCAI proceedings-international joint conference on artificial intelligence, Vol. 22
(p. 1186).
Bilenko,M.,Basu,S.,&Mooney,R.J.(2004).Integratingconstraintsandmetriclearn-
ing in semi-supervised clustering. In Proceedings of the twenty-first international
conference on machine learning (p. 11). ACM.
Cai, X., Wang, C., Xiao, B., Chen, X., & Zhou, J. (2012). Deep nonlinear metric learning
with independent subspace analysis for face verification. In Proceedings of the
20th ACM international conference on multimedia (pp. 749–752). ACM.
Cao, Q., Ying, Y., & Li, P. (2013). Similarity metric learning for face recogni-
tion. In Proceedings of the IEEE international conference on computer vision
(pp. 2408–2415).
Chai, J., Liu, H., Chen, B., & Bao, Z. (2010). Large margin nearest local mean classifier.
Signal Processing, 90(1), 236–248.
Chang, C.-C. (2012). A boosting approach for supervised mahalanobis distance
metric learning. Pattern Recognition, 45(2), 844–862.
Changpinyo, S., Liu, K., & Sha, F. (2013). Similarity component analysis. In Advances
in neural information processing systems (pp. 1511–1519).
Cinbis, R. G., Verbeek, J., & Schmid, C. (2011). Unsupervised metric learning for
face identification in tv video. In 2011 IEEE international conference on computer
vision (pp. 1559–1566). IEEE.
Cover,T.M.(1968).Ratesofconvergencefornearestneighborprocedures.InHawaii
international conference on system sciences.
Cover,T.,&Hart,P.(1967).Nearestneighborpatternclassification.IEEETransactions
on Information Theory, 13(1), 21–27.
Davis, J. V., & Dhillon, I. S. (2008). Structured metric learning for high dimensional
problems. In Proceedings of the 14th ACM SIGKDD international conference on
knowledge discovery and data mining (pp. 195–203). ACM.
Davis, J. V., Kulis, B., Jain, P., Sra, S., & Dhillon, I. S. (2007). Information-theoretic
metric learning. In Proceedings of the 24th international conference on machine
learning (pp. 209–216). ACM.
Der, M., & Saul, L. K. (2012). Latent coincidence analysis: A hidden variable model
fordistancemetriclearning.In Advancesinneuralinformationprocessingsystems
(pp. 3230–3238).
Dong, Y., Zhang, L., Zhang, L., & Du, B. (2015). Maximum margin metric learning
basedtargetdetectionforhyperspectralimages.IsprsJournalofPhotogrammetry
& Remote Sensing, 108, 138–150.
Du, B., & Zhang, L. (2014a). A discriminative metric learning based anomaly de-
tection method. IEEE Transactions on Geoscience & Remote Sensing, 52(11),
6844–6857.
Du, B., & Zhang, L. (2014b). Target detection based on a dynamic subspace. Pattern
Recognition, 47(1), 344–358.
Feng, Z., Jin, R., & Jain, A. (2013). Large-scale image annotation by efficient and
robust kernel metric learning. In Proceedings of the IEEE international conference
on computer vision (pp. 1609–1616).
Galleguillos, C., McFee, B., & Lanckriet, G. R. (2014). Iterative category discovery
via multiple kernel metric learning. International Journal of Computer Vision,
108(1–2), 115–132.
Gao, X., Hoi, S. C., Zhang, Y., Wan, J., & Li, J. (2014). Soml: Sparse online metric
learning with application to image retrieval. In AAAI (pp. 1206–1212).
Gao, Y., Wang, M., Ji, R., Wu, X., & Dai, Q. (2014). 3-d object retrieval with hausdorff
distance learning. IEEE Transactions on Industrial Electronics, 61(4), 2088–2098.
Globerson, A., & Roweis, S. T. (2005). Metric learning by collapsing classes.
In Advances in neural information processing systems (pp. 451–458).
Goldberger,J.,Hinton,G.E.,Roweis,S.T.,&Salakhutdinov,R.(2004).Neighbourhood
components analysis. In Advances in neural information processing systems
(pp. 513–520).
Guillaumin, M., Verbeek, J., & Schmid, C. (2009). Is that you? metric learning
approaches for face identification. In 2009 IEEE 12th international conference on
computer vision (pp. 498–505). IEEE.
Guillaumin, M., Verbeek, J., & Schmid, C. (2010). Multiple instance metric learn-
ing from automatically labeled bags of faces. In Computer vision–ECCV 2010
(pp. 634–647). Springer.
He, Y., Chen, W., Chen, Y., & Mao, Y. (2013). Kernel density metric learning. In 2013
IEEE 13th international conference on data mining (pp. 271–280). IEEE.
Hoi,S.C.,Liu,W.,&Chang,S.-F.(2008).Semi-superviseddistancemetriclearningfor
collaborative image retrieval. In IEEE conference on computer vision and pattern
recognition, 2008 (pp. 1–7). IEEE.
Hoi,S.C.,Liu,W.,Lyu,M.R.,&Ma,W.-Y.(2006).Learningdistancemetricswithcon-
textual constraints for image retrieval. In 2006 IEEE computer society conference
on computer vision and pattern recognition, Vol. 2 (pp. 2072–2078). IEEE.
Hong, Y., Li, Q., Jiang, J., & Tu, Z. (2011). Learning a mixture of sparse distance met-
rics for classification and dimensionality reduction. In 2011 IEEE international
conference on computer vision (pp. 906–913). IEEE.
Hu, J., Lu, J., & Tan, Y.-P. (2014). Discriminative deep metric learning for face
verification in the wild. In Proceedings of the IEEE conference on computer vision
and pattern recognition (pp. 1875–1882).
Hu, J., Lu, J., & Tan, Y. P. (2016). Deep metric learning for visual tracking. IEEE
Transactions on Circuits & Systems for Video Technology, 26(11), 2056–2068.
Hu, J., Lu, J., Yuan, J., & Tan, Y.-P. (2014). Large margin multi-metric learning
for face and kinship verification in the wild. In Computer vision–ACCV 2014
(pp. 252–267). Springer.
Jain, A. K. (2008). Data clustering: 50 years beyond K-means. Springer Berlin
Heidelberg.
Jain, P., Kulis, B., Davis, J. V., & Dhillon, I. S. (2012). Metric and kernel learning
usingalineartransformation.JournalofMachineLearningResearch(JMLR),13(1),
519–547.
Jain, P., Kulis, B., Dhillon, I. S., & Grauman, K. (2009). Online metric learning
and fast similarity search. In Advances in neural information processing systems
(pp. 761–768).
Jin, R., Wang, S., & Zhou, Y. (2009a). Regularized distance metric learning: Theory
and algorithm. In Advances in neural information processing systems
(pp. 862–870).
Jin, R., Wang, S., & Zhou, Z.-H. (2009b). Learning a distance metric from multi-
instance multi-label data. In IEEE conference on computer vision and pattern
recognition, 2009 (pp. 896–902). IEEE.
Joachims,T.,Finley,T.,&Yu,C.N.J.(2009).Cutting-planetrainingofstructuralsvms.
Machine Learning, 77(1), 27–59.
Jolliffe, I. T. (1986). Principal component analysis and factor analysis. Springer New
York.
Kedem, D., Tyree, S., Sha, F., Lanckriet, G. R., & Weinberger, K. Q. (2012). Non-
linear metric learning. In Advances in neural information processing systems
(pp. 2573–2581).
Koestinger, M., Hirzer, M., Wohlhart, P., Roth, P. M., & Bischof, H. (2012). Large
scale metric learning from equivalence constraints. In 2012 IEEE conference on
computer vision and pattern recognition (pp. 2288–2295). IEEE.
Kozakaya, T., Ito, S., & Kubota, S. (2011). Random ensemble metrics for object
recognition. In 2011 IEEE international conference on computer vision
(pp. 1959–1966). IEEE.
Kulis, B. (0000). Metric learning: A survey, Foundations and Trends in Machine
Learning 5(4).
Kunapuli, G., & Shavlik, J. (2012). Mirror descent for metric learning: A unified ap-
proach. In Machine learning and knowledge discovery in databases
(pp. 859–874). Springer.
Lajugie, R., Arlot, S., & Bach, F. (2014). Large-margin metric learning for constrained
partitioning problems. In Proceedings of the 31st international conference on
machine learning.
Lebanon, G. (2006). Metric learning for text documents. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 28(4), 497–508.
Li, W., Zhao, R., & Wang, X. (2012). Human reidentification with transferred metric
learning. In ACCV (1) (pp. 31–44).
Likas,A.,Vlassis,N.,&Verbeek,J.J.(2001).Theglobalk-meansclusteringalgorithm.
Pattern Recognition, 36(2), 451–461.
Lim, D., Lanckriet, G., & McFee, B. (2013). Robust structural metric learning. In Pro-
ceedings of the 30th international conference on machine learning (pp. 615–623).

Liu, Y. (2006). Distance metric learning: A comprehensive survey, Michigan State
Universiy.
Liu, W., & Tsang, I. W. (2015). Large margin metric learning for multi-label predic-
tion. In Twenty-ninth AAAI conference on artificial intelligence.
Liu, M., & Vemuri, B. C. (2012). A robust and efficient doubly regularized metric
learning approach. In Computer vision–ECCV 2012 (pp. 646–659). Springer.
Liu, B., Wang, M., Hong, R., Zha, Z., & Hua, X.-S. (2010). Joint learning of labels
and distance metric. IEEE Transactions on Systems, Man and Cybernetics, Part B
(Cybernetics), 40(3), 973–978.
Lu, J., Wang, G., Deng, W., & Jia, K. (2015). Reconstruction-based metric learning for
unconstrained face verification. IEEE Transactions on Information Forensics and
Security, 10(1), 79–89.
Lu, J., Wang, G., Deng, W., Moulin, P., & Zhou, J. (2015). Multi-manifold deep metric
learning for image set classification. In Proceedings of the IEEE conference on
computer vision and pattern recognition (pp. 1137–1145).
Lu, J., Wang, G., & Moulin, P. (2013). Image set classification using holistic multiple
order statistics features and localized multi-kernel metric learning. In Proceed-
ings of the IEEE international conference on computer vision (pp. 329–336).
Lu, J., Zhou, X., Tan, Y.-P., Shang, Y., & Zhou, J. (2014). Neighborhood repulsed
metriclearningforkinshipverification.IEEETransactionsonPatternAnalysisand
Machine Intelligence, 36(2), 331–345.
Ma, L., Yang, X., & Tao, D. (2014). Person re-identification over camera networks
usingmulti-taskdistancemetriclearning.IEEETransactionsonImageProcessing,
23(8), 3656–3670.
McFee,B.,&Lanckriet,G.R.(2010).Metriclearningtorank.InProceedingsofthe27th
international conference on machine learning (pp. 775–782).
Mensink, T., Verbeek, J., Perronnin, F., & Csurka, G. (2013). Distance-based image
classification: Generalizing to new classes at near-zero cost. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 35(11), 2624–2637.
Mignon,A.,&Jurie,F.(2012).Pcca:Anewapproachfordistancelearningfromsparse
pairwise constraints. In 2012 IEEE conference on computer vision and pattern
recognition (pp. 2666–2672). IEEE.
Moon, T. K. (1996). The expectation–maximization algorithm. IEEE Signal Processing
Magazine, 13(6), 47–60.
Moutafis, P., Leng, M., & Kakadiaris, I. A. (2017). An overview and empirical com-
parison of distance metric learning methods. IEEE Transactions on Cybernetics,
47(3), 612–625.
Niu, G., Dai, B., Yamada, M., & Sugiyama, M. (2014). Information-theoretic semi-
supervised metric learning via entropy regularization. Neural Computation,
26(8), 1717–1762.
Norouzi, M., Fleet, D. J., & Salakhutdinov, R. R. (2012). Hamming distance metric
learning. In Advances in neural information processing systems (pp. 1061–1069).
Ojala, T., Pietikäinen, M., & Mäenpää, T. (2002). Multiresolution gray-scale and rota-
tion invariant texture classification with local binary patterns. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 24(7), 971–987.
Paisitkriangkrai, S., Shen, C., & van den Hengel, A. (2015). Learning to rank in person
re-identification with metric ensembles. In Proceedings of the IEEE conference on
computer vision and pattern recognition (pp. 1846–1855).
Parameswaran, S., & Weinberger, K. Q. (2010). Large margin multi-task metric
learning. In Advances in neural information processing systems (pp. 1867–1875).
Qi, G.-J., Tang, J., Zha, Z.-J., Chua, T.-S., & Zhang, H.-J. (2009). An efficient sparse
metric learning in high-dimensional space via l 1-penalized log-determinant
regularization. In Proceedings of the 26th annual international conference on
machine learning (pp. 841–848). ACM.
Rosales, R., & Fung, G. (2006). Learning sparse metrics via linear programming.
In Proceedings of the 12th ACM SIGKDD international conference on knowledge
discovery and data mining (pp. 367–373). ACM.
Royden, H. L., & Fitzpatrick, P. (1988). Real analysis, Vol. 198. Macmillan New York.
Salakhutdinov, R., & Roweis, S. T. (2003). Adaptive overrelaxed bound optimization
methods. In ICML (pp. 664–671).
Schultz, M., & Joachims, T. (2004). Learning a distance metric from relative compar-
isons. Advances in Neural Information Processing Systems (NIPS), 41.
Shalev-Shwartz, S., & Ben-David, S. (2014). Understanding machine learning. from
theory to algorithms, Lirias.kuleuven.be.
Shalev-Shwartz, S., Singer, Y., & Ng, A. Y. (2004). Online and batch learning of
pseudo-metrics. In Proceedings of the twenty-first international conference on
machine learning (p. 94). ACM.
Shaw, B., Huang, B., & Jebara, T. (2011). Learning a distance metric from a network.
In Advances in neural information processing systems (pp. 1899–1907).
Shen,C.,Kim,J.,Liu,F.,Wang,L.,&VanDenHengel,A.(2014).Efficientdualapproach
to distance metric learning. IEEE Transactions on Neural Networks and Learning
Systems, 25(2), 394–406.
Shen, C., Kim, J., Wang, L., & Hengel, A. (2009). Positive semidefinite metric learning
with boosting. In Advances in neural information processing systems (pp. 1651–
1659).
Sohn, K. (2016). Improved deep metric learning with multi-class n-pair loss objec-
tive. In 30th conference on neural information processing systems.
Song, H. O., Xiang, Y., Jegelka, S., & Savarese, S. (2016). Deep metric learning via
lifted structured feature embedding. In Computer vision and pattern recognition
(pp. 4004–4012).
Tao, D., Jin, L., Wang, Y., Yuan, Y., & Li, X. (2013). Person re-identification by
regularized smoothing kiss metric learning. IEEE Transactions on Circuits and
Systems for Video Technology, 23(10), 1675–1685.
Torresani, L., & Lee, K.-c. (2006). Large margin component analysis. In Advances in
neural information processing systems (pp. 1385–1392).
Verma, Y., & Jawahar, C. (2012). Image annotation using metric learning in semantic
neighbourhoods. In Computer vision–ECCV 2012 (pp. 836–849). Springer.
Verma, N., Mahajan, D., Sellamanickam, S., & Nair, V. (2012). Learning hierarchical
similarity metrics. In 2012 IEEE conference on computer vision and pattern recog-
nition (pp. 2280–2287). IEEE.
Wang, F. (2011). Semisupervised metric learning by maximizing constraint margin.
IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics), 41(4),
931–939.
Wang,J.,Deng,Z.,Choi,K.S.,Jiang,Y.,Luo,X.,Chung,F.L.,&Wang,S.(2016).Distance
metric learning for soft subspace clustering in composite kernel space. Pattern
Recognition, 52(C), 113–134.
Wang, J., Do, H. T., Woznica, A., & Kalousis, A. (2011). Metric learning with multiple
kernels. In Advances in neural information processing systems (pp. 1170–1178).
Wang, Z., Gao, S., & Chia, L.-T. (2012). Learning class-to-image distance via large
margin and l1-norm regularization. In Computer vision–ECCV 2012
(pp. 230–244). Springer.
Wang, S., Jiang, S., Huang, Q., & Tian, Q. (2012). Multi-feature metric learning with
knowledgetransferamongsemanticsandsocialtagging.In 2012IEEEconference
on computer vision and pattern recognition (pp. 2240–2247). IEEE.
Wang, J., Kalousis, A., & Woznica, A. (2012). Parametric local metric learning for
nearest neighbor classification. In Advances in neural information processing
systems (pp. 1601–1609).
Wang, F., & Sun, J. (2014). Survey on distance metric learning and dimensionality
reductionindatamining.DataMiningandKnowledgeDiscovery,29(2),534–564.
Wang, F., & Sun, J. (2015). Survey on distance metric learning and dimensionality
reductionindatamining.DataMiningandKnowledgeDiscovery,29(2),534–564.
Wang, H., Wang, W., Zhang, C., & Xu, F. (2014). Cross-domain metric learning based
on information theory. In Twenty-eighth AAAI conference on artificial intelligence.
Wang, Q., Yuen, P. C., & Feng, G. (2013). Semi-supervised metric learning via
topology preserving multiple semi-supervised assumptions. Pattern Recogni-
tion, 46(9), 2576–2587.
Weinberger, K. Q., Blitzer, J., & Saul, L. K. (2005). Distance metric learning for
large margin nearest neighbor classification. In Advances in neural information
processing systems (pp. 1473–1480).
Weinberger, K. Q., & Tesauro, G. (2007). Metric learning for kernel regression. In
International conference on artificial intelligence and statistics (pp. 612–619).
Wolpert, D. H., & Macready, W. G. (1997). No free lunch theorems for optimization.
IEEE Transactions on Evolutionary Computation, 1(1), 67–82.
Xing, E. P., Jordan, M. I., Russell, S., & Ng, A. Y. (2002). Distance metric learning
with application to clustering with side-information. In Advances in neural
information processing systems (pp. 505–512).
Xiong, F., Gou, M., Camps, O., & Sznaier, M. (2014). Person re-identification
using kernel-based metric learning methods. In Computer vision–ECCV 2014
(pp. 1–16). Springer.
Xu, Y., Ping, W., & Campbell, A. T. (2011). Multi-instance metric learning. In 2011
IEEE 11th international conference on data mining (pp. 874–883). IEEE.
Yang, P., Huang, K., & Liu, C.-L. (2013). Geometry preserving multi-task metric
learning. Machine Learning, 92(1), 133–175.
Yang, L., Jin, R., & Sukthankar, R. (2012). Bayesian active distance metric learning,
arXiv preprint arXiv:1206.5283.
Yang, L., Jin, R., Sukthankar, R., & Liu, Y. (2006). An efficient algorithm for local
distance metric learning. In AAAI, Vol. 2.
Ying, Y., Huang, K., & Campbell, C. (2009). Sparse metric learning via smooth
optimization. In Advances in neural information processing systems
(pp. 2214–2222).
Ying, Y., & Li, P. (2012). Distance metric learning with eigenvalue optimization.
Journal of Machine Learning Research (JMLR), 13(1), 1–26.
Yu, Y., Jiang, J., & Zhang, L. (2011). Distance metric learning by minimal distance
maximization. Pattern Recognition, 44(3), 639–649.
Yu, C. N. J., & Joachims, T. (2009). Learning structural svms with latent variables. In
International conference on machine learning (pp. 1169–1176).
Yu, J., Wang, M., & Tao, D. (2012). Semisupervised multiview distance metric
learning for cartoon synthesis. IEEE Transactions on Image Processing, 21(11),
4636–4648.
Yu, J., Yang, X., Gao, F., & Tao, D. (2016). Deep multimodal distance metric learning
using click constraints for image ranking. IEEE Transactions on Cybernetics,
pp(99), 1–11.
Zhang, Y., Zhang, H., Nasrabadi, N. M., & Huang, T. S. (2013). Multi-metric learning
for multi-sensor fusion based classification. Information Fusion, 14(4), 431–440.
Zheng, W.-S., Gong, S., & Xiang, T. (2013). Reidentification by relative distance
comparison.IEEETransactionsonPatternAnalysisandMachineIntelligence,35(3),
653–668.
Zhu, P., Zhang, L., Zuo, W., & Zhang, D. (2013). From point to set: Extend the
learning of distance metrics. In Proceedings of the IEEE international conference
on computer vision (pp. 2664–2671).
Zou, P.-C., Wang, J., Chen, S., & Chen, H. (2014). Bagging-like metric learning for
support vector regression. Knowledge-Based Systems, 65, 21–30.

「已注销」

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Survey and experimental study on metric learning methods

Li D, Tian Y. Survey and experimental study on metric learning methods[J]. Neural Networks, 2018.2017-2018最新影响因子 7.197摘要距离度量学习由于其在提高距离相关方法（例如k个最近邻居（kNN））的性能方面高效性和高效率成为近来一项热门研究领域。度量学习旨...
复制链接

扫一扫