摘要: 分享对论文的理解. 原文见 Jason Davis, Brian Kulis, Suvrit Sra and Inderjit Dhillon, Information-Theoretic Metric Learning, ICML 2007. 只有可怜的 5 页, 但引用达到 2000 余次.
1. 论文贡献
- 证明信息理论度量学习与低轶核学习的等价性
2. 基本符号
符号 | 含义 | 说明 |
---|---|---|
x i ∈ R d \boldsymbol{x}_i \in \mathbb{R}^{d} xi∈Rd | 第 i i i 个对象 | 默认为列向量 |
X = [ x 1 x 2 … x n ] ∈ R d × n \boldsymbol{X} = [\boldsymbol{x}_1 \boldsymbol{x}_2 \dots \boldsymbol{x}_n] \in \mathbb{R}^{d \times n} X=[x1x2…xn]∈Rd×n | 数据矩阵 | 没有逗号 |
K 0 = X T X \boldsymbol{K}_0 = \boldsymbol{X}^{\mathsf{T}}\boldsymbol{X} K0=XTX | Gram 矩阵 | |
u u u | 距离上界, 小于它表示相似 | |
l l l | 距离下界, 大于它表示相似 | u < l u < l u<l |
m ∈ R d \boldsymbol{m} \in \mathbb{R}^{d} m∈Rd | 多个高斯分布的均值 | 为一个向量 |
y i ∈ { 1 , 2 , … , C } y_i \in \{1, 2, \dots, C\} yi∈{1,2,…,C} | x i \boldsymbol{x}_i xi 的标签 | 不限于二分类 |
A ∈ R d × d \boldsymbol{A} \in \mathbb{R}^{d \times d} A∈Rd×d | 正定矩阵 | |
Z Z Z | 归一化常数 | |
S \boldsymbol{S} S | 相似点对集合 | |
D \boldsymbol{D} D | 不相似点对集合 |
3. 方案
新的马氏距离为:
KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 3: d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…
理解:
- 如果 A = I \boldsymbol{A} = \boldsymbol{I} A=I, 则退化为欧氏距离.
- 如果 A = U T U \boldsymbol{A} = \boldsymbol{U}^{\mathsf{T}}\boldsymbol{U} A=UTU, 那么 KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 3: d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…, 与 度量学习之 LMNN 的表达式一致.
多变量高斯的概率密度函数为
KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 91: …-\frac{1}{2} d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…
两个马氏度量的距离为
K
L
(
p
(
x
;
m
,
A
1
)
∥
p
(
x
;
m
,
A
2
)
)
=
∫
p
(
x
;
m
,
A
1
)
log
p
(
x
;
m
,
A
1
)
p
(
x
;
m
,
A
2
)
d
x
(3)
\mathrm{KL}(p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1) \| p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_2)) = \int p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1) \log \frac{p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1)}{p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_2)} \mathrm{d} \boldsymbol{x} \tag{3}
KL(p(x;m,A1)∥p(x;m,A2))=∫p(x;m,A1)logp(x;m,A2)p(x;m,A1)dx(3)
优化目标为:
KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 168: …bject to } & d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…
解释:
- 这里使用了 KL 散度.
疑问:
- (3) 式的积分表示什么? 对整个数据集的对象? 如果是这样, 右边是否应将 x \boldsymbol{x} x 改为 x i \boldsymbol{x}_i xi?
- (4) 式中的 S \boldsymbol{S} S 和 D \boldsymbol{D} D 是指从数据集中可以构造的所有相似点/不相似点对的集合, 还是部分?
理论证明与算法还没弄会.
4. 小结
继续努力!