【论文学习4】CBLoss：Class-Balanced Loss Based on Effective Number of Samples

最新推荐文章于 2025-04-19 13:14:58 发布

我什么都不懂zvz

最新推荐文章于 2025-04-19 13:14:58 发布

阅读量1.9k

点赞数 24

分类专栏： long-tail learning 文章标签：学习机器学习深度学习

本文链接：https://blog.csdn.net/Je1zvz/article/details/135062094

版权

long-tail learning 专栏收录该内容

5 篇文章

订阅专栏

本文提出了一种新的理论框架，关注数据重叠对学习影响，通过定义有效样本个数来平衡长尾数据集的损失函数。实验表明，这种方法在CIFAR、ImageNet和iNaturalist等数据集上改善了模型性能，特别是在处理尾类时。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

日期：2023/12/18
论文：Class-Balanced Loss Based on Effective Number of Samples
链接：CBLoss
会议：CVPR2019

1 Abstract

在本工作中，发现随着样本数量增多，新增数据附带的benefit可能会有所减少（因为新增数据的features可能与原有数据的features存在重叠关系，加了也白给）
提出了一种新的理论框架来衡量数据重叠：将每个样本与小邻域关联而不是与单个样本关联；这里的关键不是去理解什么是小邻域，而是去理解它是如何衡量数据重叠。
定义了Effective number of samples： $E_n=(1-\beta^n)/(1-\beta)$ ，其中 $\beta\in[0,1)$ 是个超参数。使用样本有效个数去re-balance 损失函数。
在long-tailed CIFAR, ImageNet, iNaturalist数据集上都表现得很好

2 Introduction

长尾学习中最常见的两种策略就是：1）re-sampling ； 2）re-weighting

re-sampling分为过采样和欠采样。过采样可能会引入大量重叠的样本，会降低训练并且导致模型过拟合；欠采样可能会导致丢失一些重要的样本，从而在特征学习中学不到什么好东西。
re-weighting最直观的做法就是根据每个类样本个数的倒数对loss进行一个权值重新分配，但是性能不见得好；随后又提出了更smoothed的方法，用类频率的开方根的倒数来进行权值重新分配；不管怎么样，这里的核心问题都是：how can we design a better class-balanced loss that is applicable to a diverse array of datasets?

在这里插入图片描述

黑色实线为no re-weighting的情况，可以发现对于尾类，模型区分困难；
红色虚线为使用类频率为倒数re-weighting的情况，可以发现其实它的分类效果也不咋的；
蓝色虚线就是使用effective number of samples进行re-weighting的情况，可以发现他能有效区分两个类

通过以上观察可以发现，”数据越多越好“的说法其实是片面的，因为数据之间存在信息重叠，随着样本数据量增加，模型从数据中提取的margin benefit会减少。基于此，本文提出使用有效样本个数作为平衡权重加到损失函数中。值得注意的是，这个方法与模型和损失都是正交的。

3 Effective Number of Samples

3.1 Data sampling as random covering

1） S：特征空间中所有可能的数据集合
2） N：S的体积（N>=1）
类似于random covering problem，每次从S中采样一个数据(该数据被认为是N=1的subset)，直到采样到的数据(很多个subset)能表达S为止(coverage of S)。

3）expected total volume of sampled data(期望体积）：与数据个数有关的值，上界为N

定义1： Effective Number： samples的有效个数等于samples的期望体积
在这里插入图片描述

为了简化问题，规定：每次采样会有 p 的概率与之前的样本完全重叠；会有1-p的概率与之前的样本完全不重叠

3.2 Mathematical Formulation

公式推导
命题1： Effective Number： $E_n=\frac{1-\beta^n}{1-\beta}，其中\beta=\frac{N-1}{N}$
归纳演绎推导以上公式：
1）当n=1时，很明显 $E_n=1$
2）当n-1时假设成立，当n时，有 $p=E_{n-1}/N$ ，这里的 $p$ 是说有这么大的概率可能会抽到与之前数据重叠的数据。则期望体积如下（期望公式 $E=\sum{p*f(x)}$ ，其中f(x)表示可能性)
$E_n = pE_{n-1}+(1-p)(E_{n-1}+1)=1+\frac{N-1}{N}E_{n-1}$
公式意思是有p的概率可能重叠，那么期望体积就不变；有1-p的概率不重叠，那么期望体积+1；然后算期望，代入p就得到以上结果。再代入命题1和 $\beta$ ，得
$E_n = \frac{1-\beta^n}{1-\beta}$
推导结束

理解 $E_n$ ,N和 $\beta$ 以及n的关系
根据几何级数（等比数列求和公式哈哈）
$E_n=\frac{1-\beta^n}{1-\beta}=\sum_{j=1}^n\beta^{j-1}$
其中 $j$ 表示第 $j$ 个样本，整个表示第 $j$ 个样本贡献了 $\beta^{j-1}$ 给有效个数。当我们给n极限的时候，有
$N=\lim_{n \to \infty}\sum_{j=1}^n\beta^{j-1}=\frac{1}{1-\beta}$
所以可以推导 $E_n,\beta和N$ 的关系:

若 $\beta=0$ 也就是N=1，那么 $E_n=1$
若 $\beta=1$ 也就是 $N\to\infty$ ，那么 $E_n\to n$ ，这也可以由下面的极限推导求得（大一高数）

3.3 思考啥意思V1

$N$ 代表的意义在我看来就是数据集 $S$ 中有多少个原型(prototype)，也就是完全不重叠的数据（or 特征）；比如 $N = 1$ ，说明 $S$ 中仅有一个原型，那么该数据集中所有数据只用这么一个原型就可以表示。当 $N\to\infty$ ，说明 $S$ 中有无数个原型（当然不可能），那么该数据集所有数据都是一个独立的原型，所以计算出来的 $E_n=n$ ，说明有效个数有n个（n个数据是原型）

4 Class-Balanced Loss

各种定义如下：

y : label类别， $y\in\{1,2...,C\}$
x : input输入
p : 模型预测概率 $p=[p_1,p_2...p_c]^T,且p_i\in[0,1]$
$L (p, y)$ : 损失函数
对于类别 i 的effective number: $E_{n_i}=(1-\beta^{n_i}_i)/(1-\beta_i)$ ，其中 $n_i$ 是类i的样本个数