项目一总结

1.熟悉数据

这儿尝试用pandas

2.理解数据

此处主要列举数据的一些信息,有效数据、均值、最大值、最小值等

注意:有些数据有时效性,数据收集的是2010年的房子价格,如果你预测2011,一切没有问题,但是今年是2018年,有点太旧了,你需要增加新的数据了。

3.挑选特征

针对大量的数据,如何挑选特征,也是一大难题。目前最简单的方法是靠直觉。

学会如何提取数据

4.建立模型

首先挑选目标量,即你要预测什么,设置为y;

然后挑选决策器,即用什么变量进行预测,设置为x;

最后挑选模型,此处经常选择sklearn的模型,例如选择决策树;

训练就好了。

5.衡量模型的好坏

常见的衡量指标为准确率;

采用MAE来衡量(平均绝对值误差)

我们应该用验证集来衡量模型的误差,而不应该使用训练集。

(当然,可以采用训练集的误差来分析模型的拟合程度)

6.实验不同的模型

不同的模型会导致过拟合和欠拟合

我们可以通过调整超参数来确定最佳的MAE(此处有点像grid 的方式,当然仅仅是列举而已)

7.更好的模型

以上说的时决策树,决策树很难估量过拟合和欠拟合的程度,因此此处进一步引出了随机森林,

随机森林采用很多树,通过已有树预测的 平均值来作为最后的预测结果。这个通常会有更好的

结果,即使不进行调参。

实验证明,随机森林确实比决策树会好很多。当然,你还可以像6一样用grid来调整超参数,效果会更好。

以后在介绍XGBoost。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值