论文笔记: 度量学习之 LMNN

闵帆

已于 2022-08-30 10:50:06 修改

阅读量699

点赞数

分类专栏：论文笔记文章标签：学习机器学习人工智能

于 2022-08-28 11:04:50 首次发布

本文链接：https://blog.csdn.net/minfanphd/article/details/126566725

版权

论文笔记专栏收录该内容

29 篇文章 3 订阅

订阅专栏

摘要: 分享对论文的理解. 原文见 Kilian Q. Weinberger, John Blitzer and Lawrence K. Saul, Distance Metric Learning for Large Margin Nearest Neighbor Classification, NIPS 2005.

1. 论文贡献

将度量学习与 kNN 结合, 充分利用了局部信息.
由于优化问题是凸函数, 能够迅速获得最优解.

2. 基本符号

符号	含义	说明
$\overrightarrow{x}_i \in \mathbb{R}^{d}$	第 $i$ 个对象
$y_i \in \{1, 2, \dots, C\}$	$\overrightarrow{x}_i$ 的标签	不限于二分类
$\mathbf{L} \in \mathbb{R}^{d \times d}$	线性变换矩阵
$\mathcal{D}$	学习到的度量
$y_{ij} \in \{0, 1\}$	$1$ 表示 $y_i = y_j$
$\eta_{ij} \in \{0, 1\}$	$1$ 表示 $\overrightarrow{x}_j$ 为 $\overrightarrow{x}_i$ 类别相同的目标邻居

3. 方案

度量的计算
$\mathcal{D}(\overrightarrow{x}_i, \overrightarrow{x}_j) = \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_j)\|_2^2\tag{1}$
解释:

先计算两个向量的差值.
利用 $\mathbf{L}$ 进行线性变换, 相当于对向量进行加权, 这点与 PCA 很像. 这里满足结合率, 即 $\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_j) = \mathbf{L} \overrightarrow{x}_i - \mathbf{L} \overrightarrow{x}_j$ .
计算变换后数据的二范数.

3.1 邻居的确定

根据欧氏距离. 与当前样本类别相同的最近 $k$ 个邻居. 这些邻居在学习过程中不改变.
问题:

数据需要归一化吗?
不改变邻居合理吗?

3.2 代价函数 (即优化目标)

$\varepsilon(\mathbf{L}) = \sum_{ij} \eta_{ij} \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_j)\|^2 + c \sum_{ijl} \eta_{ij} (1 - y_{il}) \left[1 + \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_j)\|^2 - \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_l)\|^2\right]_+ \tag{2}$
这个就是核心了. 解释如下:

第一个累加, $\eta_{ij}$ 表示只关注同类别的目标邻居. 这一部分越小越好.
第一个累加是二重循环, 表示对所有的对象, 都关注其目标邻居进行一次计算.
$c$ 是一个调节因子 (常数), 可能通过验证集来学习.
第二个累加是三重循环.
$\eta_{ij} = 1$ 表示 $\overrightarrow{x}_j$ 为 $\overrightarrow{x}_i$ 类别相同的目标邻居; 否则这一部分为 $0$ .
$1 - y_{il}) = 1$ 表示 $\overrightarrow{x}_i$ 与 $\overrightarrow{x}_l$ 类别不同.
方括号里面的 1 表示一定的容忍性, 否则后面的值一般小于 $0$ .
方括号里面的第 2 项表示与有效邻居的距离, 越小越好.
方括号里面的第 3 项表示与异类对象的距离, 越大越好.
下标的 $+$ 表示如果表达式小于 $0$ , 就使它为 $0$ . 即控制非负.
疑问:
为什么方括号里面要成对地计算?
回答: 希望每个的有效邻居比异类数据近. 如果不成对地检查, 就难于使用下标 $+$ .
不知道方括号中的 $1$ 是否可以替换为别的常数.
不需要正则项防止过拟合?
为什么是半正定的?

4. 小结

成对计算, 关注局部性.

闵帆

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
论文笔记: 度量学习之 LMNN

摘要: 分享对论文的理解. 原文见 Kilian Q. Weinberger, John Blitzer and Lawrence K. Saul, Distance Metric Learning for Large Margin Nearest Neighbor Classification, NIPS 2005.
复制链接

扫一扫