目标:根据一些属性,预测波士顿的房价
关键步骤:
1.分析数据
1.1观察数据的类型,
是否有字符串型数据、是否有缺失值、数据范围是否合理。
2.数据预处理(清洗数据)
2.1正确性:有没有异常值
2.2完整性:是否有缺失值
在本例中,我们使用以下两种方法,
一是丢弃数据,即选择丢弃过多空数据的特征(或者直接丢弃数据行,前提是NA数据占比不多),
二是填补数据,填补的方法也很多,均值中位数众数填充等等都是好方法。
三是对字符属性进行分析转化,转化为计算机可以识别的特征。
3.特征分析
分析特征的相关性。
可以考虑绘制直方图,观察数据的分布。
可以考虑相关热图等手段分析。cofuse-matrix,sklearn就有
可以创造特征、即根据已有特征重新构造新的特征。
必要时,需要进行数值区间缩放,即归一化、标准化等。
创造性主要是说两种情况,一种是对现有数据的处理,比如对类别的独热编码(One-hotEncoder)或者标签编码(LabelEncoder),数值的区间缩放,归一化,标准化等等,另一种就是根据某一个或多个特征创造一个新的特征,例如某特征按组分类(groupby)后,或者某些特征组合后来创造新特征等等。
【因为我们筛选出来的特征都为数值类型特征,所以我们只做标准化的操作:这个项目是一个回归类型的项目,而我们的回归算法对标准正态分步预测较为准确,从我们的目标数据可以看出数据是一个偏态分布,那么我们使用log将数据从偏态分布转换为标准正态分布,最后进行标准化。】
4.建立衡量模型准确性的标准
采用各种得分策略。关键时候需要自己构建得分策略。
5.建立模型,分析模型的表现
【主要是过拟合、欠拟合的分析,还有最优参数的调整。】
<此时,各种交叉验证策略就可以大展身手了。train_test_split/kfold/cross_val_score/gridsearchcv>
6.最后。使用全部数据在最优参数上重新训练模型。完毕