[论文评析]Long-Tail Learning via Logit Adjustment,ICLR,2021

文章信息

题目:Long-Tail Learning via Logit Adjustment
发表:ICLR,2021
作者:Aditya Krishna Menon, Sadeep Jayasumana, Ankit Singh Rawat,Himanshu Jain, Andreas Veit, Sanjiv Kumar

背景

标签中的不平衡(imbalanced)问题或者长尾分布(Long tail distribution)一直是多类别分类问题中的一个较为普遍的问题,简单来说,训练集中标签的不平衡会导致最终训练出来的模型有偏差Bias,直接表现就是:模型对于多数类样本的预测结果很好,但是对于少数类样本的预测结果普遍较差。所以,不平衡学习(Imbalanced learning)的目标就是研究如何从不平衡的训练集中学习到一个balanced model, 使得特对于各个类别(特别是那些少数类)的样本预测效果都要很好
正式地,我们实际上希望最小化如下目标:
在这里插入图片描述

动机

当前已有很多解决不平衡分类的方法,比如weight normalization, loss modification, cost-sensitive learning, 并且取得了一些比较好的效果。但是这些方法本质上都是启发式的,各有各的局限性。本文从统计学习角度出发,通过利用训练集中标签分布 P ( y ) P(y) P(y) 来修改loss计算中的logit 输出从而提出了一种balanced loss 函数,也就是所谓的Logit adjustment。

方法

理论

从最最小化BER(f)开始,对于Bayes最优的scorer— f ∗ f^{*} f在这里插入图片描述从BER的定义可以看出,BER实际上隐式的使用了 P b a l P^{bal} Pbal,故:
在这里插入图片描述假设 P ( y ∣ x ) ∝ e x p s y ∗ ( x ) P(y|x) \propto exp{s^{*}_{y}(x)} P(yx)expsy(x), 根据, p b a l ( y ∣ x ) ∝ p ( y ∣ x ) / p ( y ) p^{bal}(y|x) \propto p(y|x) / p(y) pbal(yx)p(yx)/p(y), 则(7)进一步变形为:

在这里插入图片描述上式表明:我们可以通过利用先验类概率P(y)来修正logit从而最小化balanced loss

具体怎么做呢? 有两条思路:
(1) 直接训练unbiased model— P b a l ( y ) P^{bal}(y) Pbal(y): 在训练过程中把P(y)添加了loss function中,训练完成后可直接用来预测。
(2)用naive loss (i.e softmax cross-entropy)训练得到bias model— P ( y ) P(y) P(y),然后在测试/推理时利用P(y)来调整预测的logit。这属于post-hoc。

下面先来看第一种。

方法一:Logit adjust loss

直接建模 P b a l ( y ∣ x ) P^{bal}(y|x) Pbal(yx),
P b a l ( y ∣ x ) ∝ e x p ( f y ( x ) ) P^{bal}(y|x) \propto exp(f_{y}(x)) Pbal(yx)exp(fy(x)), 结合 p b a l ( y ∣ x ) ∝ p ( y ∣ x ) / p ( y ) p^{bal}(y|x) \propto p(y|x) / p(y) pbal(yx)p(yx)/p(y),再引入一个超参数 τ \tau τ, loss可以改写为:
在这里插入图片描述其中参数 τ \tau τ用于调节第二项的权重。可以看到当 τ = 0 \tau=0 τ=0时,该loss就退化为了softmax cross-entropy, τ \tau τ越大,则模型训练过程中会更加关注少数类样本。

值得注意的是,该损失与对比学习Constrastive learning中的损失以及pair wise loss非常相似。

方法二: post-hoc 方法

当训练好模型以后,做预测时对logit做如下的事后矫正即可:
在这里插入图片描述

思考

  1. 统计分析那块原文看着比较晦涩,方法实际上非常简单,与以往工作的最大不同是有这个方法是从statistical learning 视角推倒出来的,而非启发式的。
  2. 参数 τ \tau τ实际上用来调节对少数类样本的关注度,这样一来,不平衡分类的研究似乎变成了一个顾此失彼的游戏:不关注少数类吧,少数类样本的效果很差,关注吧,多数类样本的预测效果会有下降。期待有更深入的研究。

References

1.Menon A K, Jayasumana S, Rawat A S, et al. Long-tail learning via logit adjustment[J]. arXiv preprint arXiv:2007.07314, 2020.

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MasterQKK 被注册

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值