参考代码:https://blog.csdn.net/snoopy_yuan
该部分主要是基于模型的预测;
包括数据预处理(处理数据不平衡问题),LR模型预测等;
数据预处理部分思想:首先数据严重不平衡(1:3k),这里采用下采样的办法处理;为避免下采样失去了数据原本的分布特征,所以先使用kmeans聚类;然后在每个类别上取sub_sample;与正样本组成训练集。
1. 机器学习中数据不平衡的处理:
数据不平衡:数据分布不均匀;
解决方法:
1)采样:又分为上采样和下采样;
上采样:复制多遍小规模的数据;
下采样:删除部分大规模的数据;
2)数据合成
3)一分类
4)加权
详见参考链接;
参考:https://www.cnblogs.com/zhaokui/p/5101301.html
2. 归一化处理
对不同度量尺度的特征进行归一化处理,使用sklearn.preprocessing.StandardScaler()
下面是用逻辑回归解决该问题:
1. 回顾了一下逻辑回归是什么(其实是重新学习了一下= =)
简单来说,对于一个二分类问题,设最终分类目标为y,其有两个取值0或1。训练的目的就是,输入一个特征向量x,训练得到参数w和b&