论文笔记: 度量学习之 ITML (理解ing)

闵帆

已于 2022-08-31 10:16:25 修改

阅读量604

点赞数

分类专栏：论文笔记文章标签：学习机器学习人工智能

于 2022-08-30 11:48:12 首次发布

本文链接：https://blog.csdn.net/minfanphd/article/details/126600059

版权

论文笔记专栏收录该内容

29 篇文章 3 订阅

订阅专栏

摘要: 分享对论文的理解. 原文见 Jason Davis, Brian Kulis, Suvrit Sra and Inderjit Dhillon, Information-Theoretic Metric Learning, ICML 2007. 只有可怜的 5 页, 但引用达到 2000 余次.

1. 论文贡献

证明信息理论度量学习与低轶核学习的等价性

2. 基本符号

符号	含义	说明
$\boldsymbol{x}_i \in \mathbb{R}^{d}$	第 $i$ 个对象	默认为列向量
$\boldsymbol{X} = [\boldsymbol{x}_1 \boldsymbol{x}_2 \dots \boldsymbol{x}_n] \in \mathbb{R}^{d \times n}$	数据矩阵	没有逗号
$\boldsymbol{K}_0 = \boldsymbol{X}^{\mathsf{T}}\boldsymbol{X}$	Gram 矩阵
$u$	距离上界, 小于它表示相似
$l$	距离下界, 大于它表示相似	$u < l$
$\boldsymbol{m} \in \mathbb{R}^{d}$	多个高斯分布的均值	为一个向量
$y_i \in \{1, 2, \dots, C\}$	$\boldsymbol{x}_i$ 的标签	不限于二分类
$\boldsymbol{A} \in \mathbb{R}^{d \times d}$	正定矩阵
$Z$	归一化常数
$\boldsymbol{S}$	相似点对集合
$\boldsymbol{D}$	不相似点对集合

3. 方案

新的马氏距离为:
$KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 3: d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…$
理解:

如果 $\boldsymbol{A} = \boldsymbol{I}$ , 则退化为欧氏距离.
如果 $\boldsymbol{A} = \boldsymbol{U}^{\mathsf{T}}\boldsymbol{U}$ , 那么 $KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 3: d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…$ , 与度量学习之 LMNN 的表达式一致.

多变量高斯的概率密度函数为
$KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 91: …-\frac{1}{2} d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…$

两个马氏度量的距离为
$\mathrm{KL}(p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1) \| p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_2)) = \int p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1) \log \frac{p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1)}{p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_2)} \mathrm{d} \boldsymbol{x} \tag{3}$

优化目标为:
$KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 168: …bject to } & d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…$

解释:

这里使用了 KL 散度.

疑问:

(3) 式的积分表示什么? 对整个数据集的对象? 如果是这样, 右边是否应将 $\boldsymbol{x}$ 改为 $\boldsymbol{x}_i$ ?
(4) 式中的 $\boldsymbol{S}$ 和 $\boldsymbol{D}$ 是指从数据集中可以构造的所有相似点/不相似点对的集合, 还是部分?

理论证明与算法还没弄会.

4. 小结

继续努力!

闵帆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文笔记: 度量学习之 ITML (理解ing)

摘要: 分享对论文的理解. 原文见 Jason Davis, Brian Kulis, Suvrit Sra and Inderjit Dhillon, Information-Theoretic Metric Learning, ICML 2007. 只有可怜的 5 页, 但引用达到 2000 余次.
复制链接

扫一扫