论文笔记: 度量学习之 ITML (理解ing)

摘要: 分享对论文的理解. 原文见 Jason Davis, Brian Kulis, Suvrit Sra and Inderjit Dhillon, Information-Theoretic Metric Learning, ICML 2007. 只有可怜的 5 页, 但引用达到 2000 余次.

1. 论文贡献

  • 证明信息理论度量学习与低轶核学习的等价性

2. 基本符号

符号含义说明
x i ∈ R d \boldsymbol{x}_i \in \mathbb{R}^{d} xiRd i i i 个对象默认为列向量
X = [ x 1 x 2 … x n ] ∈ R d × n \boldsymbol{X} = [\boldsymbol{x}_1 \boldsymbol{x}_2 \dots \boldsymbol{x}_n] \in \mathbb{R}^{d \times n} X=[x1x2xn]Rd×n数据矩阵没有逗号
K 0 = X T X \boldsymbol{K}_0 = \boldsymbol{X}^{\mathsf{T}}\boldsymbol{X} K0=XTXGram 矩阵
u u u距离上界, 小于它表示相似
l l l距离下界, 大于它表示相似 u < l u < l u<l
m ∈ R d \boldsymbol{m} \in \mathbb{R}^{d} mRd多个高斯分布的均值为一个向量
y i ∈ { 1 , 2 , … , C } y_i \in \{1, 2, \dots, C\} yi{1,2,,C} x i \boldsymbol{x}_i xi 的标签不限于二分类
A ∈ R d × d \boldsymbol{A} \in \mathbb{R}^{d \times d} ARd×d正定矩阵
Z Z Z归一化常数
S \boldsymbol{S} S相似点对集合
D \boldsymbol{D} D不相似点对集合

3. 方案

新的马氏距离为:
KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 3: d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…
理解:

  • 如果 A = I \boldsymbol{A} = \boldsymbol{I} A=I, 则退化为欧氏距离.
  • 如果 A = U T U \boldsymbol{A} = \boldsymbol{U}^{\mathsf{T}}\boldsymbol{U} A=UTU, 那么 KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 3: d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…, 与 度量学习之 LMNN 的表达式一致.

多变量高斯的概率密度函数为
KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 91: …-\frac{1}{2} d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…

两个马氏度量的距离为
K L ( p ( x ; m , A 1 ) ∥ p ( x ; m , A 2 ) ) = ∫ p ( x ; m , A 1 ) log ⁡ p ( x ; m , A 1 ) p ( x ; m , A 2 ) d x (3) \mathrm{KL}(p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1) \| p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_2)) = \int p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1) \log \frac{p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1)}{p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_2)} \mathrm{d} \boldsymbol{x} \tag{3} KL(p(x;m,A1)p(x;m,A2))=p(x;m,A1)logp(x;m,A2)p(x;m,A1)dx(3)

优化目标为:
KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 168: …bject to } & d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…

解释:

  • 这里使用了 KL 散度.

疑问:

  • (3) 式的积分表示什么? 对整个数据集的对象? 如果是这样, 右边是否应将 x \boldsymbol{x} x 改为 x i \boldsymbol{x}_i xi?
  • (4) 式中的 S \boldsymbol{S} S D \boldsymbol{D} D 是指从数据集中可以构造的所有相似点/不相似点对的集合, 还是部分?

理论证明与算法还没弄会.

4. 小结

继续努力!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值