SberbankRussianHousingMarket数据挖掘比赛总结

本文是作者参加Kaggle Sberbank俄罗斯住房市场数据挖掘比赛的总结,详细介绍了从实验环境配置、比赛目标、数据探索、特征工程、模型融合到实验总结的全过程。通过数据清洗、交叉验证、PCA分析、Stacking和Voting等方法,作者提升了预测房价的模型性能,最终在比赛中取得了一定的排名。文中强调了避免过拟合、理解特征重要性和模型融合的重要性,并表达了对数据挖掘领域的热情和未来学习计划。
摘要由CSDN通过智能技术生成

一、 实验准备

1.实验环境
系统 MacOSX 10.9.5
处理器 2.3GHz Intel Core i7
内存 16GB
2.编程语言
Python2.7
3.编程环境
Jupyter NoteBook

利用pip install 安装所需的包,参考TA提供的requirements.txt。
pip install -r requirements.txt

二、 比赛探索

1. 比赛目标

利用房屋的基础数据和宏观经济数据预测房价(price_doc)。

2. 数据集

train.csv
test.csv
macro.csv

数据集带有时间戳(timestamp),训练集和测试集按时间划分 201108-201506/201507-201605

3. 认识数据

① 缺失值情况(引用)

② 房价曲线(引用)

③ 数据错误
state 中 33
build_year 20052009 / 4965…
floor/max_floor 0
price_doc 的outlier

数据集中包含一些明显的错误,对其修正可以得到更好的模型,这也是特征工程中非常重要的一环。

④ 数据分类
房屋内部数据 full_sq life_sq…
人口数据 full_all young_all work_all…
学校数据 children_school children_preschool…
地理位置数据 以km结尾的各种…
宏观经济数据 来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值