论文阅读|Beyond softmax loss: Intra-concentration and inter-separability loss for classification

主要观点

  1. Softmax具有如下缺点:
    类间距离甚至会小于类内距离;
    对特征向量和权重向量的幅值不具有鲁棒性;
    不适合处理类样本不均衡的任务;
    没有拒绝错误样本的能力,该样本的标签没有被训练过;
    在极坐标下,难以添加margin;
    softmax函数 e s i / ∑ i e s k {e^{s_{i}} / \sum_{i}^{e^{s} k}} esi/iesk的比值不是保持不变的,特征向量和权重向量会变得越来越大;

  2. 提出intra-concentration and inter-separability loss (I2CS),I2CS是建立在分式上的,分式的分子是特征与其类质心之间的欧氏距离,分母是每个类质心与其他质心之间的最小欧氏距离【为什么是分式的形式,而不是设置权重因子?】
    L I 2 C S = d intra  d inter  = ∑ i = 1 K 1 N i ∑ j = 1 N j ( x i j − c i ) 2 ∑ i = 1 K min ⁡ r ≠ i ( c i − c r ) 2 \mathscr{L}_{I 2 C S}=\frac{d_{\text {intra }}}{d_{\text {inter }}}=\frac{\sum_{i=1}^{K} \frac{1}{N_{i}} \sum_{j=1}^{N_{j}}\left(x_{i j}-c_{i}\right)^{2}}{\sum_{i=1}^{K} \min _{r \neq i}\left(c_{i}-c_{r}\right)^{2}} LI2CS=dinter dintra =i=1Kminr=i(cicr)2i=1KNi1j=1Nj(xijci)2

  3. 避免了对一个通常很复杂的分式进行直接优化。在每次迭代中,用差分公式对辅助函数进行优化,并从理论上证明了新优化算法的收敛性。

  4. 与LDA的区别:
    L L D A = 1 K ∑ i = 1 K ( c i − c g ) 2 ∑ i = 1 K 1 N i ∑ j = 1 N j ( x i j − c i ) 2 \mathscr{L}_{L D A}=\frac{\frac{1}{K} \sum_{i=1}^{K}\left(c_{i}-c_{g}\right)^{2}}{\sum_{i=1}^{K} \frac{1}{N_{i}} \sum_{j=1}^{N_{j}}\left(x_{i j}-c_{i}\right)^{2}} LLDA=i=1KNi1j=1Nj(xijci)2K1i=1K(cicg)2
    注:这里需要使LDA最大化【作者就不能写倒数么?】
    I2CS最小化的是类质心与其他类质心的距离,而LDA是类质心到全局质心的距离;
    I2CS中的类质心是不断更新的,LDA是直接确定好的【事实上,LDA是在网络训练完成后进行,类质心已经很稳定了】
    I2CS就是LDA的神经网络版本

  5. 直接添加margin是不行的,会破环分子分母的比例,因此本文的margin添加在
    L I 2 C S m = γ ∑ i = 1 K 1 N i ∑ j = 1 N j ( x i j − c i ) 2 ∑ i = 1 K min ⁡ r ≠ i ( c i − c r ) 2 \mathscr{L}_{I 2 C S}^{m}=\frac{\gamma \sum_{i=1}^{K} \frac{1}{N_{i}} \sum_{j=1}^{N_{j}}\left(x_{i j}-c_{i}\right)^{2}}{\sum_{i=1}^{K} \min _{r \neq i}\left(c_{i}-c_{r}\right)^{2}} LI2CSm=i=1Kminr=i(cicr)2γi=1KNi1j=1Nj(xijci)2
    而不是使用
    L 12 C S m = ∑ i = 1 K 1 N i ∑ j = 1 N j ( x i j − c i ) 2 + γ ∑ i = 1 K min ⁡ r ≠ i ( c i − c r ) 2 \mathscr{L}_{12 C S}^{m}=\frac{\sum_{i=1}^{K} \frac{1}{N_{i}} \sum_{j=1}^{N_{j}}\left(x_{i j}-c_{i}\right)^{2}+\gamma}{\sum_{i=1}^{K} \min _{r \neq i}\left(c_{i}-c_{r}\right)^{2}} L12CSm=i=1Kminr=i(cicr)2i=1KNi1j=1Nj(xijci)2+γ
    加性变乘性,其实也好理解,这里是分式损失函数,加性本就不便于计算【所以为什么不对分式损失函数取log变为加性运算?】

实验设计

  • 图像分类(1:N)
  • 人脸识别(1:1)
  • 类不均衡学习:L-GM Loss性能不好的原因可能是,训练数据不足以估计高斯分布参数
  • 异常点鲁棒性:这是“增大类间距,减小类内距”的通常优点
  • 开集评估
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值