不均衡数据集的处理

最新推荐文章于 2023-02-06 16:10:50 发布

yubajin

最新推荐文章于 2023-02-06 16:10:50 发布

阅读量339

点赞数

分类专栏：深度学习数据处理文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/m0_37223909/article/details/105980529

版权

深度学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

数据处理

1 篇文章 0 订阅

订阅专栏

1. 数据方面(aspect of data)

降采样(Down sampling) & 多采样(Up sampling) [重复(Repeat) /数据增强(Augmentation)]
- Rotation / Perspective / Translation / Scale / Noise / Blur / Occlusion / Color / Brightness / …
GAN网络的使用

2. 损失函数方面(aspect of loss)

2.1 加权交叉熵损失函数(Weight Cross Entropy Loss)

对交叉熵损失函数加权，针对数据本身类别做均衡
公式

2.1.1 交叉熵损失函数(Cross entropy)

交叉熵损失函数用于二分类损失函数的计算,其公式为：
其中y为真值,y’为估计值.当真值y为1时,

函数图形:

可见此时y’越接近1损失函数的值越小,越接近0损失函数的值越大.
当真值y为0时,

函数图形:

可见此时y’越接近0损失函数的值越小,越接近1损失函数的值越大.

损失函数应用计算及其应用代码详解可参考这里

2.2 Focal Loss

针对样本本身的训练难易程度做均衡,更加关注难训练的样本

样本分类

正样本：
则是我们想要正确分类出的类别所对应的样本，例如，我们要对一张图片进行分类，以确定其是否属于汽车，那么在训练的时候，汽车的图片则为正样本
负样本:
原则上可以选取上个例子任何不是汽车的其他图片，

正常样本比例为：
正难训练样本 > 负难训练样本 > 正易训练样本 > 负易训练样本

公式

公式是Focal Loss的计算方法。pt是不同类别的分类概率，r是个大于0的值，at是个[0，1]间的小数，r和at都是固定值，不参与训练。从表达式可以看出：
- 无论是前景类还是背景类，pt越大，权重(1-pt)r就越小。也就是说简单样本可以通过权重进行抑制；
- at用于调节正样本和负样本的比例，前景类别使用at时，对应的背景类别使用1-at
r和at的最优值是相互影响的，所以在评估准确度时需要把两者组合起来调节。作者在论文中给出r=2、at=0.25时，ResNet-101+FPN作为backbone的结构有最优的性能。

最后

原文链接

yubajin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
不均衡数据集的处理

1. 数据方面(aspect of data)降采样(Down sampling) & 多采样(Up sampling) [重复(Repeat) /数据增强(Augmentation)]Rotation / Perspective / Translation / Scale / Noise / Blur / Occlusion / Color / Brightness / …...
复制链接

扫一扫

专栏目录