分类中的长尾问题(long-tail)
论文名
Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax
https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2006.10408.pdf
摘要
深度学习中的长尾问题一直是很有挑战性的任务,长尾效应本质上就是数据类别不均衡导致少部分类占大多数样本,而大多数类只有小部分样本,在数量分布图上呈现出长长的尾巴的现象。一般的解决办法是人工平衡类别,比如COCO和PASCAL VOC。但是实际情况下,数据的分布往往都是长尾的,所以这是一个需要解决的问题。
现有方法包括:采样、损失函数权重调整以及迁移学习。
这篇文章认为,一般的检测模型都对样本多的类充分建模,而对样本少的类建模不足,甚至会抑制样本少的类的拟合。这篇文章提出了balanced group softmax,调整head(多的)和tail(少的)类的训练,而不需要对少的类上采样。
分布不均衡
首先作者将检测框架(Faster RCNN)的特征表示和分类模块进行了解耦,发现不同类别对应的分类器的权值严重失衡,其中低概率类别被激活的机会很少。
具体到Fig1,可以看到,对于COCO这种比较均衡的数据集,除了类别0(也就是背景