Introduction
- 有监督度量学习的监督形式一般为 equivalence between human-labeled classes,作者认为这忽略了数据的 latent semantic hierarchy. 为此,作者提出了一种自监督的正则化方法 HIER (HIErarchical Regularization),通过在双曲空间中学习 hierarchical proxies 来捕捉数据隐式的层次信息,从而提供比类别标签更加细粒度的监督信号
- 并且作为一种正则化方法,HIER 可以和其他基于超球/双曲空间的 SOTA 度量学习方法结合并有效提升其性能 (超球空间上的度量学习损失使得样本 embed 间的角度与样本间相似度一致,而 HIER 可以使得样本 embed 在经过指数变换后,在双曲空间上的距离满足类别层次关系)
Method
HIER (HIErarchical Regularization)
- HIER 损失函数基于三元组
{
x
i
,
x
j
,
x
k
}
\{x_i,x_j,x_k\}
{xi,xj,xk},其中
x
j
,
x
j
x_j,x_j
xj,xj 是相关样本,
x
k
x_k
xk 是无关样本,相关的定义是两个样本互为双曲空间上的
K
K
K (
K
=
20
K=20
K=20) 近邻样本 (reciprocal nearest neighbor). 三元组集合
T
\mathcal T
T 定义为
- hierarchical proxies 为可学习参数,每个 proxy 都代表数据集中若干样本或者其他 proxies 的父节点,从而表征出隐式的层次结构
- 给定三元组和 hierarchical proxies 集合
P
P
P (
∣
P
∣
=
512
|P|=512
∣P∣=512),可以计算出每个 hierarchical proxy
ρ
∈
P
\rho\in P
ρ∈P 是
x
i
,
x
j
x_i,x_j
xi,xj 的 lowest common ancestor (LCA) 的概率
其中 d H d_H dH 为双曲空间中的距离函数。接着,由上述概率可以根据 Gumbel-max trick 采样出一个 proxy ρ i j \rho_{ij} ρij 作为 x i , x j x_i,x_j xi,xj 的 LCA
其中, g i j ∼ Gumbel ( 0 , 1 ) g_{ij}\sim\text{Gumbel}(0,1) gij∼Gumbel(0,1). 同理,还可以采样出 x i , x j , x k x_i,x_j,x_k xi,xj,xk 的 LCA ρ i j k \rho_{ijk} ρijk - HIER 的损失函数为三个 triplet 损失函数之和
其中, δ = 0.1 \delta=0.1 δ=0.1. 损失函数的目的就是使得 x i , x j x_i,x_j xi,xj 接近它们的 LCA ρ i j \rho_{ij} ρij 并且远离和无关样本 x k x_k xk 的 LCA ρ i j k \rho_{ijk} ρijk,同时也让 x k x_k xk 接近 ρ i j k \rho_{ijk} ρijk 而远离 ρ i j \rho_{ij} ρij. 这将使得 ρ i j \rho_{ij} ρij 更加远离庞加莱球的中心,代表低层级的类别中心,而 ρ i j k \rho_{ijk} ρijk 更加靠近庞加莱球的中心,代表高层级的类别中心,使得样本 embed 和 proxies 形成树形的层级结构
Total Objective
- 最终的损失函数为基于超球/双曲空间的损失函数
L
ML
\mathcal L_{\text{ML}}
LML 和 HIER 损失函数
L
HIER
\mathcal L_{\text{HIER}}
LHIER 的加权和
其中, λ = 1 \lambda=1 λ=1, T x , T ρ \mathcal T_x,\mathcal T_\rho Tx,Tρ 分别为三元组集合和 proxies 集合 - 注意,当和基于超球空间的损失函数一起使用时,在计算 hyperbolic embed 前并不会进行 L2 归一化,而是直接在最后的 embedding layer 后加上指数变换层
Experiments
- Quantitative Results. 作者在实验中采用 proxy anchor loss 作为 metric learning objective
L
ML
\mathcal L_{\text{ML}}
LML
- Qualitative Results. We visualize the learned embedding vectors which are projected to a 2-dimensional Poincare ball. For visualization, we use UMAP with hyperboloid distance metric as a dimensional reduction technique.
- Analysis on Semantic Hierarchy of HIER.
- Ablation Studies.
(1) Impact of HIER and hyperbolic space.
(2) Impact of embedding dimension.
(3) Impact of hyperparameters.