项目一总结

看不见我呀

于 2018-08-01 22:41:35 发布

阅读量177

点赞数

分类专栏： kaggle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaotihong/article/details/81349603

版权

kaggle 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1.熟悉数据

这儿尝试用pandas

2.理解数据

此处主要列举数据的一些信息，有效数据、均值、最大值、最小值等

注意：有些数据有时效性，数据收集的是2010年的房子价格，如果你预测2011，一切没有问题，但是今年是2018年，有点太旧了，你需要增加新的数据了。

3.挑选特征

针对大量的数据，如何挑选特征，也是一大难题。目前最简单的方法是靠直觉。

学会如何提取数据

4.建立模型

首先挑选目标量，即你要预测什么，设置为y；

然后挑选决策器，即用什么变量进行预测，设置为x；

最后挑选模型，此处经常选择sklearn的模型，例如选择决策树；

训练就好了。

5.衡量模型的好坏

常见的衡量指标为准确率；

采用MAE来衡量（平均绝对值误差）

我们应该用验证集来衡量模型的误差，而不应该使用训练集。

（当然，可以采用训练集的误差来分析模型的拟合程度）

6.实验不同的模型

不同的模型会导致过拟合和欠拟合

我们可以通过调整超参数来确定最佳的MAE（此处有点像grid 的方式，当然仅仅是列举而已）

7.更好的模型

以上说的时决策树，决策树很难估量过拟合和欠拟合的程度，因此此处进一步引出了随机森林，

随机森林采用很多树，通过已有树预测的平均值来作为最后的预测结果。这个通常会有更好的

结果，即使不进行调参。

实验证明，随机森林确实比决策树会好很多。当然，你还可以像6一样用grid来调整超参数，效果会更好。

以后在介绍XGBoost。

看不见我呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。