一、 实验准备
1.实验环境
系统 MacOSX 10.9.5
处理器 2.3GHz Intel Core i7
内存 16GB
2.编程语言
Python2.7
3.编程环境
Jupyter NoteBook
利用pip install 安装所需的包,参考TA提供的requirements.txt。
pip install -r requirements.txt
二、 比赛探索
1. 比赛目标
利用房屋的基础数据和宏观经济数据预测房价(price_doc)。
2. 数据集
train.csv
test.csv
macro.csv
数据集带有时间戳(timestamp),训练集和测试集按时间划分 201108-201506/201507-201605
3. 认识数据
① 缺失值情况(引用)
② 房价曲线(引用)
③ 数据错误
state 中 33
build_year 20052009 / 4965…
floor/max_floor 0
price_doc 的outlier
数据集中包含一些明显的错误,对其修正可以得到更好的模型,这也是特征工程中非常重要的一环。
④ 数据分类
房屋内部数据 full_sq life_sq…
人口数据 full_all young_all work_all…
学校数据 children_school children_preschool…
地理位置数据 以km结尾的各种…
宏观经济数据 来