处理不均衡数据(Dealing with imbalanced data)简洁版

本文探讨了处理不均衡数据的几种方法,包括获取更多数据、改变评估标准、数据重组、选择适合的机器学习模型以及调整算法。通过精确度、查准率、查全率和F1分数来评价模型,并介绍了过采样、欠采样等技术,以及如何根据数据不平衡情况调整算法的阈值。
摘要由CSDN通过智能技术生成


(1)想办法获取更多的数据。


前段时期的数据,较多呈现红色部分的数据较少呈现蓝色部分的数据;后半时期,产生数据的趋势发生变化,较多呈现蓝色部分数据较少呈现红色部分数据。所以,想办法获取更多的数据。

(2)换个评判方式

通常我们会用精度(Accuracy)和错误率(error)来评价模型的好坏。这两个指标在数据不均衡时,均不能客观的衡量模型。

解决办法:

通过Confusion Matrix,计算查准率(Precision)和查全率(recall),然后再计算F1 Score。这种衡量模型的标准可以成功的区分数据不均衡问题,并且能给出模型客观的评价。

对模型评价标准不熟悉的,可以看我之前的文章:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值