两种常见的数据不平衡类型:长尾不平衡和阶梯不平衡。

exp指数分布不平衡

       长尾不平衡(long-tailed imbalance)指的是数据集中存在极端不平衡的情况,即某些类别的样本数量远远少于其他类别。这种情况通常表现为数据集中有少数类别的样本量较少,而大多数样本集中在另外一些类别上。

意思是几个主导类占据大多数例子,而大多数其他的类只有着相对较少的例子

定义:在指数分布不平衡中,数据集的样本数量按照指数规律逐渐减少。这意味着从最多样本的类别到最少样本的类别,样本数量以指数形式递减。

特点

  • 长尾效应:少数类别有大量样本,而多数类别只有极少数样本。这种分布往往导致模型更偏向于学习样本数量较多的类别,而忽略样本较少的类别。
  • 实例:假设一个数据集有10个类别,样本数量分别为1000, 500, 250, 125, 60, 30, 15, 8, 4, 2。这就是一个典型的指数分布不平衡。

step阶梯分布不平衡

       阶梯不平衡(step imbalance)可能是指数据集中存在类别间数量差距较大,但并不是像长尾不平衡那样极端不平衡的情况。相比于长尾不平衡,阶梯不平衡可能是更均衡但仍存在类别不平衡的情况,其中某些类别的样本数量明显多于其他类别,但不像长尾不平衡那样数量悬殊。

  • 分段明显:类别样本数量在不同的分段之间有明显的跳跃。例如,从一个分段到下一个分段,样本数量会骤减。
  • 实例:假设一个数据集有10个类别,样本数量分别为1000, 1000, 1000, 100, 100, 100, 10, 10, 10, 10。这就是一个典型的阶梯分布不平衡。
  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值