分类任务中的样本不均衡问题

本文探讨了在行人属性识别工程中遇到的数据不均衡问题,通过使用类似imbalanced-dataset-sampler的方法,通过概率权重调整实现各类别样本的均衡生成,涉及over-sampling和under-sampling策略。
摘要由CSDN通过智能技术生成

参考:
https://github.com/ufoym/imbalanced-dataset-sampler

最近在做行人属性相关工程,遇到个样本不均衡问题。
问题描述:行人属性中很多属性不平衡,例如,戴帽子和不戴帽子的人的比例很悬殊,我们的训练集就会出现数据不均衡现象。
针对这种现象,我们采用一种数据均衡采样器解决,思路是这样的,每个线程以1/2概率从戴帽子和不戴帽子的图像队列中取出数据。这样即可保证带帽和不戴帽的数据生成相对均衡。

类似的,假如是多任务多属性的话,可以通过设置不同任务以及不同属性的概率权重达到产生均衡数据的数据生成器的作用。

总结:分类样本不均衡就是利用re-sample
要么:1.over-sampling,复制样本数较少的类别的样本
2.under-sampling,删除样本数量较多的类别的样本

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值