主要观点
-
Softmax具有如下缺点:
类间距离甚至会小于类内距离;
对特征向量和权重向量的幅值不具有鲁棒性;
不适合处理类样本不均衡的任务;
没有拒绝错误样本的能力,该样本的标签没有被训练过;
在极坐标下,难以添加margin;
softmax函数 e s i / ∑ i e s k {e^{s_{i}} / \sum_{i}^{e^{s} k}} esi/∑iesk的比值不是保持不变的,特征向量和权重向量会变得越来越大; -
提出intra-concentration and inter-separability loss (I2CS),I2CS是建立在分式上的,分式的分子是特征与其类质心之间的欧氏距离,分母是每个类质心与其他质心之间的最小欧氏距离【为什么是分式的形式,而不是设置权重因子?】
L I 2 C S = d intra d inter = ∑ i = 1 K 1 N i ∑ j = 1 N j ( x i j − c i ) 2 ∑ i = 1 K min r ≠ i ( c i − c r ) 2 \mathscr{L}_{I 2 C S}=\frac{d_{\text {intra }}}{d_{\text {inter }}}=\frac{\sum_{i=1}^{K} \frac{1}{N_{i}} \sum_{j=1}^{N_{j}}\left(x_{i j}-c_{i}\right)^{2}}{\sum_{i=1}^{K} \min _{r \neq i}\left(c_{i}-c_{r}\right)^{2}} LI2CS=dinter dintra =∑i=1Kminr=i(ci−cr)2∑i=1KNi1∑j=1Nj(xij−ci)2 -
避免了对一个通常很复杂的分式进行直接优化。在每次迭代中,用差分公式对辅助函数进行优化,并从理论上证明了新优化算法的收敛性。
-
与LDA的区别:
L L D A = 1 K ∑ i = 1 K ( c i − c g ) 2 ∑ i = 1 K 1 N i ∑ j = 1 N j ( x i j − c i ) 2 \mathscr{L}_{L D A}=\frac{\frac{1}{K} \sum_{i=1}^{K}\left(c_{i}-c_{g}\right)^{2}}{\sum_{i=1}^{K} \frac{1}{N_{i}} \sum_{j=1}^{N_{j}}\left(x_{i j}-c_{i}\right)^{2}} LLDA=∑i=1KNi1∑j=1Nj(xij−ci)2K1∑i=1K(ci−cg)2
注:这里需要使LDA最大化【作者就不能写倒数么?】
I2CS最小化的是类质心与其他类质心的距离,而LDA是类质心到全局质心的距离;
I2CS中的类质心是不断更新的,LDA是直接确定好的【事实上,LDA是在网络训练完成后进行,类质心已经很稳定了】
I2CS就是LDA的神经网络版本 -
直接添加margin是不行的,会破环分子分母的比例,因此本文的margin添加在
L I 2 C S m = γ ∑ i = 1 K 1 N i ∑ j = 1 N j ( x i j − c i ) 2 ∑ i = 1 K min r ≠ i ( c i − c r ) 2 \mathscr{L}_{I 2 C S}^{m}=\frac{\gamma \sum_{i=1}^{K} \frac{1}{N_{i}} \sum_{j=1}^{N_{j}}\left(x_{i j}-c_{i}\right)^{2}}{\sum_{i=1}^{K} \min _{r \neq i}\left(c_{i}-c_{r}\right)^{2}} LI2CSm=∑i=1Kminr=i(ci−cr)2γ∑i=1KNi1∑j=1Nj(xij−ci)2
而不是使用
L 12 C S m = ∑ i = 1 K 1 N i ∑ j = 1 N j ( x i j − c i ) 2 + γ ∑ i = 1 K min r ≠ i ( c i − c r ) 2 \mathscr{L}_{12 C S}^{m}=\frac{\sum_{i=1}^{K} \frac{1}{N_{i}} \sum_{j=1}^{N_{j}}\left(x_{i j}-c_{i}\right)^{2}+\gamma}{\sum_{i=1}^{K} \min _{r \neq i}\left(c_{i}-c_{r}\right)^{2}} L12CSm=∑i=1Kminr=i(ci−cr)2∑i=1KNi1∑j=1Nj(xij−ci)2+γ
加性变乘性,其实也好理解,这里是分式损失函数,加性本就不便于计算【所以为什么不对分式损失函数取log变为加性运算?】
实验设计
- 图像分类(1:N)
- 人脸识别(1:1)
- 类不均衡学习:L-GM Loss性能不好的原因可能是,训练数据不足以估计高斯分布参数
- 异常点鲁棒性:这是“增大类间距,减小类内距”的通常优点
- 开集评估