各位好,我是乾颐堂大堂子。领取完整实战指南可以私信我,关键词:实战指南
导入相关python库
![](https://img-blog.csdnimg.cn/img_convert/d847ba5c7dae41fcb85caefb3ec764f1.webp?x-oss-process=image/format,png)
2.数据处理
下载的是两个数据文件,一个是真实数据,一个是测试数据,打开kc_train.csv,能够看到第二列是销售价格,而我们要预测的就是销售价格,所以在训练过程中是不需要销售价格的,把第二列删除掉,新建一个csv文件存放销售价格这一列,作为后面的结果对比。
![](https://img-blog.csdnimg.cn/img_convert/7a117a44f1514b39a0572fb73bb3c89d.webp?x-oss-process=image/format,png)
![](https://img-blog.csdnimg.cn/img_convert/50430d94048f4bb6b6c3a01f372f0be5.webp?x-oss-process=image/format,png)
2.1数据说明
数据主要包括2014年5月至2015年5月美国King County的房屋销售价格以及房屋的基本信息。 数 据分为训练数据和测试数据, 分别保存在kc_train.csv和kc_test.csv两个文件中。 其中训练数据主要包括10000条记录, 14个字段, 主要字段说明如下:
第一列 “销售日期” : 2014年5月到2015年5月房屋出售时的日期
第二列 “销售价格” : 房屋交易价格, 单位为美元, 是目标预测值
第三列 “卧室数” : 房屋中的卧室数目
第四列 “浴室数” : 房屋中的浴室数目
第五列 “房屋面积” : 房屋里的生活面积
第六列 “停车面积” : 停车坪的面积
第七列 “楼层数” : 房屋的楼层数
第八列 “房屋评分” : King County房屋评分系统对房屋的总体评分
第九列 “建筑面积” : 除了地下室之外的房屋建筑面积
第十列 “地下室面积” : 地下室的面积
第十一列“建筑年份” : 房屋建成的年份
第十二列“修复年份” : 房屋上次修复的年份
第十三列"纬度": 房屋所在纬度
第十四列“经度” : 房屋所在经度
测试数据主要包括3000条记录, 13个字段&