原标题:处理非平衡数据的七个技巧
摘要:本文介绍了在入侵检测、实时出价等数据集非常不平衡的领域应用的数据处理技术。
关键字:平衡数据,数据准备,数据科学
原文:7 Techniques to Handle Imbalanced Data
http://www.kdnuggets.com/2017/06/7-techniques-handle-imbalanced-data.html
作者:Ye Wu & Rick Radewagen, IE Business School.
译者:王安阳
介绍
在例如银行欺诈检测、市场实时出价、网络入侵检测等应用场景中,数据集有什么特点?
这些领域中使用的数据,通常只有不到1%是我们“感兴趣”的(例如:使用信用卡的欺诈数据、用户点击广告的数据、损坏的服务器扫描其网络的数据等)。 然而,大多数机器学习算法对于这种不平衡的数据集不能很好地工作。以下七个技巧可以帮助您训练分类器来检测异常类。
使用正确的评估指标
对于使用不平衡数据生成的模型,应用不当的评估指标可能是危险的。想象一下,我们的训练数据如上图所示。 如果使用精度来衡量模型的好坏,将所有测试样本分类为“0”的模型将具有很好的准确性(99.8%),但显然这种模型不会为我们提供任何有价值的信息。
在这种情况下,可以应用其他评估