论文笔记: 度量学习之 LMNN

摘要: 分享对论文的理解. 原文见 Kilian Q. Weinberger, John Blitzer and Lawrence K. Saul, Distance Metric Learning for Large Margin Nearest Neighbor Classification, NIPS 2005.

1. 论文贡献

  • 将度量学习与 kNN 结合, 充分利用了局部信息.
  • 由于优化问题是凸函数, 能够迅速获得最优解.

2. 基本符号

符号含义说明
x → i ∈ R d \overrightarrow{x}_i \in \mathbb{R}^{d} x iRd i i i 个对象
y i ∈ { 1 , 2 , … , C } y_i \in \{1, 2, \dots, C\} yi{1,2,,C} x → i \overrightarrow{x}_i x i 的标签不限于二分类
L ∈ R d × d \mathbf{L} \in \mathbb{R}^{d \times d} LRd×d线性变换矩阵
D \mathcal{D} D学习到的度量
y i j ∈ { 0 , 1 } y_{ij} \in \{0, 1\} yij{0,1} 1 1 1 表示 y i = y j y_i = y_j yi=yj
η i j ∈ { 0 , 1 } \eta_{ij} \in \{0, 1\} ηij{0,1} 1 1 1 表示 x → j \overrightarrow{x}_j x j x → i \overrightarrow{x}_i x i 类别相同的目标邻居

3. 方案

度量的计算
D ( x → i , x → j ) = ∥ L ( x → i − x → j ) ∥ 2 2 (1) \mathcal{D}(\overrightarrow{x}_i, \overrightarrow{x}_j) = \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_j)\|_2^2\tag{1} D(x i,x j)=L(x ix j)22(1)
解释:

  • 先计算两个向量的差值.
  • 利用 L \mathbf{L} L 进行线性变换, 相当于对向量进行加权, 这点与 PCA 很像. 这里满足结合率, 即 L ( x → i − x → j ) = L x → i − L x → j \mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_j) = \mathbf{L} \overrightarrow{x}_i - \mathbf{L} \overrightarrow{x}_j L(x ix j)=Lx iLx j.
  • 计算变换后数据的二范数.

3.1 邻居的确定

根据欧氏距离. 与当前样本类别相同的最近 k k k 个邻居. 这些邻居在学习过程中不改变.
问题:

  • 数据需要归一化吗?
  • 不改变邻居合理吗?

3.2 代价函数 (即优化目标)

ε ( L ) = ∑ i j η i j ∥ L ( x → i − x → j ) ∥ 2 + c ∑ i j l η i j ( 1 − y i l ) [ 1 + ∥ L ( x → i − x → j ) ∥ 2 − ∥ L ( x → i − x → l ) ∥ 2 ] + (2) \varepsilon(\mathbf{L}) = \sum_{ij} \eta_{ij} \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_j)\|^2 + c \sum_{ijl} \eta_{ij} (1 - y_{il}) \left[1 + \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_j)\|^2 - \|\mathbf{L}(\overrightarrow{x}_i - \overrightarrow{x}_l)\|^2\right]_+ \tag{2} ε(L)=ijηijL(x ix j)2+cijlηij(1yil)[1+L(x ix j)2L(x ix l)2]+(2)
这个就是核心了. 解释如下:

  • 第一个累加, η i j \eta_{ij} ηij 表示只关注同类别的目标邻居. 这一部分越小越好.
  • 第一个累加是二重循环, 表示对所有的对象, 都关注其目标邻居进行一次计算.
  • c c c 是一个调节因子 (常数), 可能通过验证集来学习.
  • 第二个累加是三重循环.
  • η i j = 1 \eta_{ij} = 1 ηij=1 表示 x → j \overrightarrow{x}_j x j x → i \overrightarrow{x}_i x i 类别相同的目标邻居; 否则这一部分为 0 0 0.
  • ( 1 − y i l ) = 1 (1 - y_{il}) = 1 (1yil)=1 表示 x → i \overrightarrow{x}_i x i x → l \overrightarrow{x}_l x l 类别不同.
  • 方括号里面的 1 表示一定的容忍性, 否则后面的值一般小于 0 0 0.
  • 方括号里面的第 2 项表示与有效邻居的距离, 越小越好.
  • 方括号里面的第 3 项表示与异类对象的距离, 越大越好.
  • 下标的 + + + 表示如果表达式小于 0 0 0, 就使它为 0 0 0. 即控制非负.
    疑问:
  • 为什么方括号里面要成对地计算?
    回答: 希望每个的有效邻居比异类数据近. 如果不成对地检查, 就难于使用下标 + + +.
  • 不知道方括号中的 1 1 1 是否可以替换为别的常数.
  • 不需要正则项防止过拟合?
  • 为什么是半正定的?

4. 小结

  • 成对计算, 关注局部性.
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值