1.获取数据
在公司的话数据挖掘/分析师一般是从同事那里获取数据。
2.数据预处理
获取到的数据一般是杂乱无的,并不符合我们模型的需要。需要对其处理:
数据类型统一
去重
去除噪声数据
无量纲化
数据归一化
数据标准化
3.特征工程
一般或得到的数据有很多特征,一些特征之间又存在关联,或者一些特征对于我们模型的建立没有丝毫的意义,这时候我们就需要挑选我们所需要的特征。将原始数据转换为更能代表预测模型的潜在问题的特征的过程就称为特征工程。它有利于降低计算成本,特高模型上限。
需要用到降维算法。
4.建模
数据处理完成就可以选取适合的模型来进行模型的训练,得到泛华较好的模型来做预测。
5.上线
验证模型的效果。