1.熟悉数据
这儿尝试用pandas
2.理解数据
此处主要列举数据的一些信息,有效数据、均值、最大值、最小值等
注意:有些数据有时效性,数据收集的是2010年的房子价格,如果你预测2011,一切没有问题,但是今年是2018年,有点太旧了,你需要增加新的数据了。
3.挑选特征
针对大量的数据,如何挑选特征,也是一大难题。目前最简单的方法是靠直觉。
学会如何提取数据
4.建立模型
首先挑选目标量,即你要预测什么,设置为y;
然后挑选决策器,即用什么变量进行预测,设置为x;
最后挑选模型,此处经常选择sklearn的模型,例如选择决策树;
训练就好了。
5.衡量模型的好坏
常见的衡量指标为准确率;
采用MAE来衡量(平均绝对值误差)
我们应该用验证集来衡量模型的误差,而不应该使用训练集。
(当然,可以采用训练集的误差来分析模型的拟合程度)
6.实验不同的模型
不同的模型会导致过拟合和欠拟合
我们可以通过调整超参数来确定最佳的MAE(此处有点像grid 的方式,当然仅仅是列举而已)
7.更好的模型
以上说的时决策树,决策树很难估量过拟合和欠拟合的程度,因此此处进一步引出了随机森林,
随机森林采用很多树,通过已有树预测的 平均值来作为最后的预测结果。这个通常会有更好的
结果,即使不进行调参。
实验证明,随机森林确实比决策树会好很多。当然,你还可以像6一样用grid来调整超参数,效果会更好。
以后在介绍XGBoost。