哈深《机器学习》project之kaggle房价预测
一、序
project内容就是kaggle上的一个比赛,据说是个经典的入门级项目,最适合我这种新手。详情链接:
https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview
首先在组里的服务器上搭jupyter notebook环境就花了很久,同门以前安过,所以帮我节省了很多时间。(后来自己在VSCode上也整好了,VSCode香啊。但我发现VSCode上运行很慢,并且尝试“RUN ALL ABOVE”时如果上面的cell太多会崩)
一开始成绩是0.115,最后调到0.11475。后来发现大家都是用的排行榜前几名的代码做baseline,我这个成绩就很普通了。
二、基础知识
首次实操数据科学的代码,要学的基础知识很多。
2.1 stacking model
第一次做这种机器学习的东西,很多东西不知道,以下均为我个人查阅资料后的看法:
这个模型是想把不同的模型结合起来,取长补短达到更好的效果。
从别的博客看到两张图像,可以很好地帮助理解这个模型:
这两个都是两层