背景
-
对于许多学习任务例如分类,识别,检索,聚类等等来说,实例嵌入(instance embeddings)都是进行图像表征的一种非常有效和通用的方式。在度量学习(metric learning)中会将比较的双方表示为嵌入空间中的一个点,通过计算他们之间的距离作为匹配的置信度。
-
但是当输入本身由于噪声干扰具有一定不确定性时,实例嵌入的单点映射无法衡量其在嵌入空间中的不确定性了。所以在这篇论文中提出了hedged instance embedding来表示嵌入空间中带不确定性的输入表征。
创新点
- 将由输入带来的偶然不确定性进行建模,在嵌入空间中将输入 x x x表达成一个随机变量 Z ∼ p ( z ∣ x ) ∈ R D Z \sim p(z \mid x) \in \mathbb{R}^{D} Z∼p(z∣x)∈RD
- 如何训练?提出了可学习的margin-contrastive loss和变分信息瓶颈原则两个loss指导训练。
方法细节
单点嵌入
- margin contrastive loss:衡量嵌入的相似度,通过欧式距离来计算损失函数。同时添加了一个margin余量,使得模型对于不匹配的样本在极端情况损失大于
M
M
M下不做惩罚,避免极端情况影响训练方向。
L con = { ∥ z 1 − z 2 ∥ 2 2 if match max ( M − ∥ z 1 − z 2 ∥ 2 , 0 ) 2 if non-match \mathcal{L}_{\text {con }}=\left\{\begin{array}{ll} \left\|z_{1}-z_{2}\right\|_{2}^{2} & \text { if match } \\ \max \left(M-\left\|z_{1}-z_{2}\right\|_{2}, 0\right)^{2} & \text { if non-match } \end{array}\right. Lcon ={∥z1−z2∥22max(M−∥z1−z2∥2,0)2 if match if non-match - soft contrastive loss. 将contrastive loss在概率的角度进行修改。首先计算一对点匹配的概率值:
p ( m ∣ z 1 , z 2 ) : = σ ( − a ∥ z 1 − z 2 ∥ 2 + b ) p\left(m \mid z_{1}, z_{2}\right):=\sigma\left(-a\left\|z_{1}-z_{2}\right\|_{2}+b\right) p(m∣z1,z2):=σ(−a∥z1−z2∥2+b)
其中 σ \sigma σ代表了sigmoid函数 σ ( t ) = 1 1 + e − t \sigma(t)=\frac{1}{1+e^{-t}} σ(t)=1+e−t1, a a a和 b b b都是可学习的参数,他们代替了 M M M的作用,作为一个作用在欧式距离上的软阈值。
有了匹配概率后,根据softmax 交叉熵损失函数来构建二值分类损失,匹配和不匹配。 m ^ \hat{m} m^表示指示函数,1为匹配,0为不匹配
L softcon = − log p ( m = m ^ ∣ z 1 , z 2 ) = { − log p ( m ∣ z 1 , z 2 ) if m ^ = 1 − log ( 1 − p ( m ∣ z 1 , z 2 ) ) if m ^ = 0 \mathcal{L}_{\text {softcon }}=-\log p\left(m=\hat{m} \mid z_{1}, z_{2}\right)=\left\{\begin{array}{ll} -\log p\left(m \mid z_{1}, z_{2}\right) & \text { if } \hat{m}=1 \\ -\log \left(1-p\left(m \mid z_{1}, z_{2}\right)\right) & \text { if } \hat{m}=0 \end{array}\right. Lsoftcon =−logp(m=m^∣z1,z2)={−logp(m∣z1,z2)−log(1−p(m∣z1,z2)) if m^=1 if m^=0
随机嵌入损失
- 在HIB中,嵌入被表示成随机变量
Z
∼
p
(
z
∣
x
)
Z \sim p(z \mid x)
Z∼p(z∣x),两个输入的匹配概率可计算为:
p ( m ∣ x 1 , x 2 ) = ∫ p ( m ∣ z 1 , z 2 ) p ( z 1 ∣ x 1 ) p ( z 2 ∣ x 2 ) d z 1 d z 2 p\left(m \mid x_{1}, x_{2}\right)=\int p\left(m \mid z_{1}, z_{2}\right) p\left(z_{1} \mid x_{1}\right) p\left(z_{2} \mid x_{2}\right) \mathrm{d} z_{1} \mathrm{~d} z_{2} p(m∣x1,x2)=∫p(m∣z1,z2)p(z1∣x1)p(z2∣x2)dz1 dz2
由于这个积分时intractable的,我们通过蒙特卡洛采样的方法来近似求解,分别从 z 1 ( k 1 ) ∼ p ( z 1 ∣ x 1 ) z_{1}^{\left(k_{1}\right)} \sim p\left(z_{1} \mid x_{1}\right) z1(k1)∼p(z1∣x1)和 z 2 ( k 2 ) ∼ p ( z 2 ∣ x 2 ) z_{2}^{\left(k_{2}\right)} \sim p\left(z_{2} \mid x_{2}\right) z2(k2)∼p(z2∣x2)中进行采样:
p ( m ∣ x 1 , x 2 ) ≈ 1 K 2 ∑ k 1 = 1 K ∑ k 2 = 1 K p ( m ∣ z 1 ( k 1 ) , z 2 ( k 2 ) ) p\left(m \mid x_{1}, x_{2}\right) \approx \frac{1}{K^{2}} \sum_{k_{1}=1}^{K} \sum_{k_{2}=1}^{K} p\left(m \mid z_{1}^{\left(k_{1}\right)}, z_{2}^{\left(k_{2}\right)}\right) p(m∣x1,x2)≈K21k1=1∑Kk2=1∑Kp(m∣z1(k1),z2(k2)) - single 高斯嵌入。将隐变量 p ( z ∣ x ) p(z \mid x) p(z∣x)表示为多维高斯分布,通过神经网络计算分布的均值和协方差,然后通过高斯表达抽取 K K K个样本来近似匹配概率 z ( 1 ) , ⋯ , z ( K ) ∼ i i d p ( z ∣ x ) z^{(1)}, \cdots, z^{(K)} \stackrel{\mathrm{iid}}{\sim} p(z \mid x) z(1),⋯,z(K)∼iidp(z∣x)。为了有利于后向传播,使用重参数技巧: z ( k ) = diag ( Σ ( x ) ) ⋅ ϵ ( k ) + μ ( x ) , where ϵ ( 1 ) , ⋯ , ϵ ( K ) ∼ i i d N ( 0 , I ) z^{(k)}=\operatorname{diag}(\sqrt{\Sigma(x)}) \cdot \epsilon^{(k)}+\mu(x), \text { where } \epsilon^{(1)}, \cdots, \epsilon^{(K)} \stackrel{\mathrm{iid}}{\sim} N(0, I) z(k)=diag(Σ(x))⋅ϵ(k)+μ(x), where ϵ(1),⋯,ϵ(K)∼iidN(0,I)
- 混合高斯嵌入。通过多个高斯模型的混合来表达嵌入的不确定性 p ( z ∣ x ) = ∑ c = N ( x , μ ( x , c ) , Σ ( x , c ) ) p(z \mid x)=\sum c=\mathcal{N}(x, \mu(x, c), \Sigma(x, c)) p(z∣x)=∑c=N(x,μ(x,c),Σ(x,c))。同时在采样时,在每个高斯分量中都进行采样相同的样本点数目。
VIB 损失函数
- **variational information bottleneck principle.**信息瓶颈准则(information bottleneck principle)是用来训练判别模型 p ( y ∣ x ) p(y \mid x) p(y∣x)的。它通过最大化隐变量和预测结果之间的互信息,减少隐变量和无关输入之间互信息来减少依赖。
在概率论和信息论中,两个随机变量的互信息(mutual Information,MI)度量了两个变量之间相互依赖的程度。 具体来说,对于两个随机变量,MI是在获得一个随机变量的信息之后,观察另一个随机变量所获得的“信息量”