matlab怎么处理非平衡数据处理,处理非平衡数据的七个技巧

本文介绍了在处理非平衡数据时的七个技巧,常见于如欺诈检测、实时出价等场景。这些技巧包括使用合适的评估指标、重抽样(欠抽样和过抽样)、正确应用K折交叉验证、组合不同重抽样数据集、调整样本比例、聚类多数类数据以及设计适应不平衡数据的模型。
摘要由CSDN通过智能技术生成

原标题:处理非平衡数据的七个技巧

摘要:本文介绍了在入侵检测、实时出价等数据集非常不平衡的领域应用的数据处理技术。

关键字:平衡数据,数据准备,数据科学

原文:7 Techniques to Handle Imbalanced Data

http://www.kdnuggets.com/2017/06/7-techniques-handle-imbalanced-data.html

作者:Ye Wu & Rick Radewagen, IE Business School.

译者:王安阳

介绍

在例如银行欺诈检测、市场实时出价、网络入侵检测等应用场景中,数据集有什么特点?

这些领域中使用的数据,通常只有不到1%是我们“感兴趣”的(例如:使用信用卡的欺诈数据、用户点击广告的数据、损坏的服务器扫描其网络的数据等)。 然而,大多数机器学习算法对于这种不平衡的数据集不能很好地工作。以下七个技巧可以帮助您训练分类器来检测异常类。

5895ab5b2d354519d801b999077d727b.png

使用正确的评估指标

对于使用不平衡数据生成的模型,应用不当的评估指标可能是危险的。想象一下,我们的训练数据如上图所示。 如果使用精度来衡量模型的好坏,将所有测试样本分类为“0”的模型将具有很好的准确性(99.8%),但显然这种模型不会为我们提供任何有价值的信息。

在这种情况下,可以应用其他评估

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值