yolov5如何运行自己的数据集_如何处理不平衡数据集

本文介绍了如何使用SMOTE(合成少数族裔过采样技术)处理不平衡数据集,特别是在欺诈检测等场景中。SMOTE通过生成现有样本的线性组合来增加少数类别的样本数量,以改善模型的预测能力。文章还展示了SMOTE的工作原理和Python实现,并讨论了其局限性,如不适用于分类特征和复杂分布的次要类别。
摘要由CSDN通过智能技术生成

SMOTE介绍

建立机器学习模型时会遇到的一个典型问题是处理不平衡的数据集,其中关注的标签极少,即欺诈检测。 在偏见数据集上直接应用机器学习模型可能会在预测少数族裔标签方面获得不良结果。 原因很简单,因为模型很少看到小班级的训练样本,当然,当出现看不见的数据点时,很难区分它们。

为了解决不平衡数据集带来的问题,将需要更多次要类的数据点。 除了上采样和下采样之类的常规方法外,SMOTE可能是一个更明智的选择,因为它只需重复现有数据即可生成数据点。 在本文中,我们将深入探讨SMOTE的逻辑,并通过直观地查看示例生成来更好地理解。

9ba408c32557a68eac936fa94ae2aeee.png

source:

SMOTE的想法

SMOTE,也称为合成少数族裔过采样技术,正如其名称听起来一样,是对少数族裔类进行过度采样的技术。 它遵循以下步骤:

· 对于每个少数族裔类别,找到其k最近邻

· 从其邻居中选择一个,并在邻居和原始点之间画一条线

· 随机选择直线上的一个点(等于选择一个介于0和1之间的比率参数,然后应用该比率来获得这些点之间的点)

· 重复直到达到预期的样本数量

因此

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值