1.DC的入门比赛,数据介绍:
数据主要包括2014年5月至2015年5月美国King County的房屋销售价格以及房屋的基本信息。 数据分为训练数据和测试数据,分别保存在kc_train.csv和kc_test.csv两个文件中。 其中训练数据主要包括10000条记录,14个字段,主要字段说明如下: 第一列“销售日期”:2014年5月到2015年5月房屋出售时的日期 第二列“销售价格”:房屋交易价格,单位为美元,是目标预测值 第三列“卧室数”:房屋中的卧室数目 第四列“浴室数”:房屋中的浴室数目 第五列“房屋面积”:房屋里的生活面积 第六列“停车面积”:停车坪的面积 第七列“楼层数”:房屋的楼层数 第八列“房屋评分”:King County房屋评分系统对房屋的总体评分 第九列“建筑面积”:除了地下室之外的房屋建筑面积 第十列“地下室面积”:地下室的面积 第十一列“建筑年份”:房屋建成的年份 第十二列“修复年份”:房屋上次修复的年份 第十三列"纬度":房屋所在纬度 第十四列“经度”:房屋所在经度 。测试数据主要包括3000条记录,13个字段,跟训练数据的不同是测试数据并不包括房屋销售价格,学员需要通过由训练数据所建立的模型以及所给的测试数据,得出测试数据相应的房屋销售价格预测值
2.数据分析
数据读入,查看数据相关信息,总共有100个字段,无缺失值,数据比较干净。
![6a8789fb49c9238453f29e28ceeff536.png](https://i-blog.csdnimg.cn/blog_migrate/478914b69dc80ac4ad688e60f37fe61a.jpeg)
![356db8370c7933f83921ec779dbf5691.png](https://i-blog.csdnimg.cn/blog_migrate/852732b768b3c95171527b81065e44e5.jpeg)
画图探索销售价格和其他字段的关系,可以知道评分和销售价格有明显的相关关系。另外,房屋面积、浴室数目等也与销售价格有正相关关系,显然一般情况下面积越大房价也越高。停车面积、楼层、经纬度、地下室面积、销售日期看不出明显的关系。
![f0b7076b801b1e5f4f5e405b5d2750ed.png](https://i-blog.csdnimg.cn/blog_migrate/da118964e7d0712bcb1ba6b76636983d.jpeg)
![aa7314acb562b606dafc782b8056fc82.png](https://i-blog.csdnimg.cn/blog_migrate/89f203bbd88ae7dc29b0fef37715a720.jpeg)
![8e432ea982bf9aef9e3244b9ded77da2.png](https://i-blog.csdnimg.cn/blog_migrate/944fae7cc7da144a40d0b5b3602c3967.jpeg)
![36faa10a1d4608996644ae1cad073584.png](https://i-blog.csdnimg.cn/blog_migrate/9b09d5e80c4223b729a01cad97502f7c.jpeg)
接下来看下销售价格的分布情况,明显的右偏状态,这里对数处理正态化。
![cbfc5288446a5bdc4bc02a4805c1f8d0.png](https://i-blog.csdnimg.cn/blog_migrate/0bd24f4a8eb3641f6c7c08f41d79abc9.jpeg)
![3d60658db8e8140f6fb49be00735d956.png](https://i-blog.csdnimg.cn/blog_migrate/6bb18b3cd388cfd253ad033a98136bed.jpeg)
接下来画一下热力图,看下各个特征的相关关系,并打印一下排序,可以看到日期,维度和销售价格关系很小,但是我试了去除这两个字段建立模型,表现并不好,所以下面模型没有去除。
![3cab244a4def28a2d67d6f85c1a71c9c.png](https://i-blog.csdnimg.cn/blog_migrate/3a609cda7b6d95ce61ca240d2e9f2f4f.jpeg)
![b98ae6a27e67ce6f79f8602f5c9b3dfe.png](https://i-blog.csdnimg.cn/blog_migrate/043bac3ff2577bb267a36f1c3f0eefac.jpeg)
建立模型
通过mse的值评价模型,随即森林的回归模型效果比较好
![d039f8dc3e477d8c6b69fd3637dbd615.png](https://i-blog.csdnimg.cn/blog_migrate/97ebfa6660ef7d6b5c0f7ccce4aa97b1.jpeg)
把测试数据代入模型得出预测结果保存csv文件,上传结果,排名在100多,不是很理想,继续研究怎么优化模型。
![7c6530d2dcc70f3b6bdb906321eab803.png](https://i-blog.csdnimg.cn/blog_migrate/aa1914e46534e4aec166cb5d8f015329.jpeg)