Gaussian Mixture Loss
前言
该论文思考了深度神经网络提取的特征与类别之间的关系,假设学习到的特征服从高斯混合分布,提出了高斯混合损失函数,同时提高了特征的类内紧凑性和类间可分离性(intra-class compactness and inter-class separability)。
Gaussian Mixture Loss 1
假设:特征服从高斯混合分布。
有K个类别,每个类别出现的概率为 p ( k ) p(k) p(k),类别k出现特征x的概率是 p ( x ∣ k ) p(x|k) p(x∣k),则特征x的概率为
p ( x ) = ∑ k = 1 K p ( x ∣ k ) p ( k ) p(x) = \sum_{k=1}^{K} p(x|k) p(k) p(x)=k=1∑Kp(x∣k)p(k)
假设概率 p ( x ∣ k ) p(x|k) p(x∣k)服从正态分布, μ k \mu_k μk为均值, Σ k \Sigma_k Σk为协方差矩阵,则
p ( x ) = ∑ k = 1 K N ( x ; μ k , Σ k ) p ( k ) p(x) = \sum_{k=1}^{K} \mathcal{N} (x; \mu_k, \Sigma_k) p(k) p(x)=k=1∑KN(x;μk,Σk)p(k)
特征x对应的类别为 z ∈ [ 1 , K ] z \in [1, K] z∈[1,K],特征x属于类别z的后验概率为
p ( z ∣ x ) = p ( x ∣ z ) p ( z ) ∑ k = 1 K p ( x ∣ k ) p ( k ) = N ( x ; μ z , Σ z ) p ( z ) ∑ k = 1 K N ( x ; μ k , Σ k ) p ( k ) p(z|x) = \frac{p(x|z)p(z)}{\sum_{k=1}^{K}p(x|k)p(k)} = \frac{\mathcal{N} (x; \mu_z, \Sigma_z) p(z)}{\sum_{k=1}^{K} \mathcal{N} (x; \mu_k, \Sigma_k) p(k)} p(z∣x)=∑k=1Kp(x∣k)p(k)p(x∣z)p(z)=∑k=1KN(x;μk,Σk)p(k)N(x;μz,Σz)p(z)
从这个公式,我们可以得到结论:x越靠近类别中心 μ z \mu_{z} μz, p ( z ∣ x ) p(z|x) p(z∣x)的值就越大。
因此,分类损失函数为
L c l s = − 1 N ∑ i = 1 N log N ( x i ; μ z i , Σ z i ) p ( z i ) ∑ k − 1 K N ( x i ; μ k , Σ k ) p ( z i ) \mathcal{L}_{cls} = - \frac{1}{N} \sum_{i=1}^{N} \log \frac{\mathcal{N}(x_i; \mu_{z_i}, \Sigma_{z_i})p(z_i)}{\sum_{k-1}^{K} \mathcal{N}(x_i; \mu_{k}, \Sigma_{k})p(z_i)} Lcls=−N1i=1∑Nlog∑k−1KN(xi;μk,Σk)p(zi)N(xi;μzi,Σzi)p(zi)
单单优化上面的分类损失不能使提取出来的训练特征趋向于高斯混合分布。例如,一个特征 x i x_i xi可以原理对应类别的中心 μ z i \mu_{z_i} μzi,同时可以被正确分类,只要特征 x i x_i xi相对于其他类别中心更靠近 μ z i \mu_{z_i} μzi。为了解决这个问题,作者添加了一个似然正则化项(likelihood regularization term)
p ( X , Z ∣ μ , Σ ) = ∏ i = 1 N N ( x i ; μ z i , Σ z i ) p ( z i ) p(X,Z|\mu, \Sigma) = \prod_{i=1}^{N} \mathcal{N}(x_i; \mu_{z_i}, \Sigma_{z_i})p(z_i) p(X,Z∣μ,Σ)=i=1∏NN(xi;μz