特征清洗
清洗异常样本
目的:不筛选出这些异常数据很可能让我们后面的数据分析模型有很大的偏差
方法:
- 聚类 用KMeans聚类将训练样本分成若干个簇,如果某一个簇里的样本数很少,而且簇质心和其他所有的簇都很远,那么这个簇里面的样本极有可能是异常特征样本了。我们可以将其从训练集过滤掉
- 异常点检测方法 主要是使用isolation Forest或者one class SVM,使用异常点检测的机器学习算法来过滤所有的异常点
采样
数据不均衡
数据不均衡的现象:绝大多数的数据在一个范围/属于一个类别,而在另外一个范围或者另外一个类别中,只有很少的一部分数据
方法:
https://www.jianshu.com/p/f170d72f6fb6
样本权重
比如我们有合法用户和非法用户的二元样本数据10000条,里面合法用户有9995条,非法用户只有5条,如果我们不考虑权重,则我们可以将所有的测试集都预测为合法用户,这样预测准确率理论上有99.95%,但是却没有任何意义
调节样本权重的方法有两种,第一种是在class_weight使用balanced。第二种是在调用fit函数时,通过sample_weight来自己调节每个样本权重