【长尾学习】Class-Balanced Loss Based on Effective Number of Samples

IRevers

已于 2023-12-05 20:29:05 修改

阅读量1k

点赞数 19

分类专栏：长尾学习文章标签：学习人工智能深度学习 python

于 2023-12-03 16:43:43 首次发布

本文链接：https://blog.csdn.net/qq_40734883/article/details/134766524

版权

长尾学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

论文标题：Class-Balanced Loss Based on Effective Number of Samples

论文链接：https://arxiv.org/pdf/1901.05555.pdf

论文代码：https://github.com/richardaecn/class-balanced-loss(tensorflow)

1、论文主要内容

作者通过数学归纳法推导训练时每类有效的样本数量 ( $\bm{(1 − \beta)/(1 − \beta^{n_{i}} )}$ )]( $n_{i}$ 代表训练时第 $i$ 类的样本数)，接着使用该数值的倒数作为类别平衡损失的权重对损失进行加权。并且将其应用于softmax、sigmoid和focal( $\bm{\gamma}$ )交叉熵的损失函数中，实验将所提出的类别平衡损失函数应用在不同的不同平衡因子的CIFAR10和CIFAR100中，同时也将其应用在ImageNet-LT和iNaturalist (2017/2018)。

论文中所提出了三个结合每类有效的样本数量( $\bm{(1 − \beta)/(1 − \beta^{n_{i}} )}$ )的softmax、sigmoid和focal交叉损失函数具体公式如下：

$CB_{softmax}(\textbf{z},y) = -(1 − \beta)/(1 − \beta^{n_{i}})log(exp(z_{y}) / ∑^{C}_{j=1} exp(z_{j}))$
$CB_{sigmoid}(\textbf{z},y) = -(1 − \beta)/(1 − \beta^{n_{i}})log(1 / ∑^{C}_{j=1}(1 + exp(z_{j}^{t})) )$
$CB_{focal}(\textbf{z},y) = -(1 − \beta)/(1 − \beta^{n_{i}})∑^{C}_{j=1} (1 - p^{t}_{i})^{\gamma} log(p^{t}_{i})))$

2、实验结果

在CIFAR10和CIFAR100上的识别结果如下图所示：
请添加图片描述

在CIFAR10和CIFAR100上分别对参数 $\beta$ 进行消融实验，CIFAR10数据集最佳的参数值为 $\beta$ = 0.9999，因为类别少，类别间的重叠程度较低。CIFAR100则是在0.99时识别效果较好，因为CIFAR100中很多类别是细分类，有样本在特征空间中重叠的情况（某一个类为其他类的一个子集，即有些类别特征为其他类别特征的一部分）。

在CIFAR的实验设置中，使用sigmoid交叉熵损失和focal损失的情况下，将最后一层（分类层）的偏置初始化为 $1-\pi )) / \pi )$ ，实验将 $\pi$ 设置为类别数的倒数。此外，对最后一层（分类层）的偏置 $b$ 去掉 $L 2$ 正则化（权重衰减）。其他情况下，最后一层偏置初始化为0。