数据集类别不平衡问题

类别不平衡问题:

类别不平衡问题指分类任务中不同类别的训练样本数目差别很大的情况。一般来说,不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少类别,这样模型在测试数据上的泛化能力就会受到影响。一个例子,训练集中有99个正例样本,1个负例样本。在不考虑样本不平衡的很多情况下,学习算法会使分类器放弃负例预测,因为把所有样本都分为正便可获得高达99%的训练分类准确率。

数据集方面进行处理:

  1. 欠采样:去处一些分类中多余的样本,使达到正负样本平衡;
  2. 过采样:增加一些样本数少的分类中的样本,从而达到正负样本数平衡;
  3. 类别均匀采样方法:通过对每类数据进行一些处理,使得达到最终采样采集到每类数据的概率一样;
    在这里插入图片描述
  4. 阈值移动:利用“再缩放”思想:阈值移动方法是使用原始训练集训练好分类器,而在预测时加入再缩放的思想,用来缓解类别不平衡的方法。

线性质再缩放的思想:在这里插入图片描述
算法层面的处理方法

  1. 带权重的softmaxLoss:

在样本不均衡分类问题中,样本量大的类别往往会主导训练过程,因为其累积loss会比较大。带权重的softmaxloss函数通过加权来决定主导训练的类别。具体为增加pos_mult(指定某类的权重乘子)和pos_cid(指定的某类的类别编号)两个参数来确定类别和当前类别的系数。(若pos_mult=0.5,就表示当然类别重要度减半)。

2.OHEMLoss:

OHEM被称为难例挖掘,针对模型训练过程中导致损失值很大的一些样本(即使模型很大概率分类错误的样本),重新训练它们.维护一个错误分类样本池, 把每个batch训练数据中的出错率很大的样本放入该样本池中,当积累到一个batch以后,将这些样本放回网络重新训练。通俗的讲OHEM就是加强loss大样本的训练。

3.focalLoss :

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在yolov5数据集中,类别不平是指不同类别的目标在数据集中的数量差异较大。解决这个问题的方法之一是使用权重来平不同类别的重要性。在引用\[2\]中提到的方法中,可以通过计算每个类别数据集中的出现次数,然后乘以相应的类别权重来得到每张图像的权重。权重越大,表示该类别在训练过程中的重要性越高,从而增加了被采样到的概率。这样可以在训练过程中平不同类别的样本数量,提高模型对少数类别的学习效果。\[2\] 另外,在yolov5数据集中,可以通过调整数据集的采样策略来处理类别不平问题。可以使用过抽样算法,如SMOTE算法,来生成合成的少数类别样本,从而增加少数类别的样本数量。SMOTE算法可以根据少数类别样本之间的相似性生成新的合成样本,从而平不同类别的样本数量。\[1\] 总之,通过使用权重调整和过抽样算法,可以有效处理yolov5数据集中的类别不平问题,提高模型对少数类别的学习效果。 #### 引用[.reference_title] - *1* [类别不平处理的三种基础处理方案](https://blog.csdn.net/The_dream1/article/details/116308509)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [YOLOv5/v7 中的类别不平问题解决方案研究](https://blog.csdn.net/qq_27278957/article/details/127978717)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [YOLOv5~数据集结构解析](https://blog.csdn.net/qq_29788741/article/details/127777932)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值