zillow房价预测比赛_美国King County房价预测训练赛

1.DC的入门比赛,数据介绍:
数据主要包括2014年5月至2015年5月美国King County的房屋销售价格以及房屋的基本信息。 数据分为训练数据和测试数据,分别保存在kc_train.csv和kc_test.csv两个文件中。 其中训练数据主要包括10000条记录,14个字段,主要字段说明如下: 第一列“销售日期”:2014年5月到2015年5月房屋出售时的日期 第二列“销售价格”:房屋交易价格,单位为美元,是目标预测值 第三列“卧室数”:房屋中的卧室数目 第四列“浴室数”:房屋中的浴室数目 第五列“房屋面积”:房屋里的生活面积 第六列“停车面积”:停车坪的面积 第七列“楼层数”:房屋的楼层数 第八列“房屋评分”:King County房屋评分系统对房屋的总体评分 第九列“建筑面积”:除了地下室之外的房屋建筑面积 第十列“地下室面积”:地下室的面积 第十一列“建筑年份”:房屋建成的年份 第十二列“修复年份”:房屋上次修复的年份 第十三列"纬度":房屋所在纬度 第十四列“经度”:房屋所在经度 。测试数据主要包括3000条记录,13个字段,跟训练数据的不同是测试数据并不包括房屋销售价格,学员需要通过由训练数据所建立的模型以及所给的测试数据,得出测试数据相应的房屋销售价格预测值

2.数据分析

数据读入,查看数据相关信息,总共有100个字段,无缺失值,数据比较干净。

6a8789fb49c9238453f29e28ceeff536.png

356db8370c7933f83921ec779dbf5691.png

画图探索销售价格和其他字段的关系,可以知道评分和销售价格有明显的相关关系。另外,房屋面积、浴室数目等也与销售价格有正相关关系,显然一般情况下面积越大房价也越高。停车面积、楼层、经纬度、地下室面积、销售日期看不出明显的关系。

f0b7076b801b1e5f4f5e405b5d2750ed.png

aa7314acb562b606dafc782b8056fc82.png

8e432ea982bf9aef9e3244b9ded77da2.png

36faa10a1d4608996644ae1cad073584.png

接下来看下销售价格的分布情况,明显的右偏状态,这里对数处理正态化。

cbfc5288446a5bdc4bc02a4805c1f8d0.png

3d60658db8e8140f6fb49be00735d956.png

接下来画一下热力图,看下各个特征的相关关系,并打印一下排序,可以看到日期,维度和销售价格关系很小,但是我试了去除这两个字段建立模型,表现并不好,所以下面模型没有去除。

3cab244a4def28a2d67d6f85c1a71c9c.png

b98ae6a27e67ce6f79f8602f5c9b3dfe.png

建立模型

通过mse的值评价模型,随即森林的回归模型效果比较好

d039f8dc3e477d8c6b69fd3637dbd615.png

把测试数据代入模型得出预测结果保存csv文件,上传结果,排名在100多,不是很理想,继续研究怎么优化模型。

7c6530d2dcc70f3b6bdb906321eab803.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值