独家 | 使用机器学习预测房价(附链接)

640?wx_fmt=png

作者:Oluwole Alowolodu

翻译:李润嘉

校对:吴金笛

本文约3400字,建议阅读10分钟。

本文使用监督式机器学习技术来预测美国爱荷华州艾姆斯市(Ames, Iowa)的房价。


介绍


该项目旨在使用监督式机器学习技术来预测美国爱荷华州艾姆斯市(Ames, Iowa)的房价。Ames的房屋数据集来自Kaggle,这是谷歌旗下的一个在线平台,它为数据科学家和机器学习科学家提供合作和竞争的机会。Kaggle以提供不同的数据和竞赛为特色,其中便包括由Dean De Cock编辑的Ames房屋数据集。


该数据集包含具有81个特征的测试集和训练集。其中,训练文件包括1460条观测值,测试文件包含1459个观测值。


数据清洗


建模的第一步便是数据探索和数据清洗,旨在理解数据集中的每个特征和模式。将训练集和测试集合并到一起进行统一的数据工程,并对缺失值进行探索。以下是一张热力图,可从中看出数据中的缺失值所处的位置。


640?wx_fmt=png


热图为特征缺失,尤其是包含大量缺失值的列提供了线索。通过对组合数据集的进一步分析,提取出每个特征所含缺失值的具体数量。可知共有34列含有缺失值,其中PoolQC,LotFrontage,FireplaceQual,Fence,Alley和MiscFeatures列的缺失值最多。以下是一个条形图,显示了缺失值的分布情况。


640?wx_fmt=png


不同的含有缺失变量的特征有不同的估算方式。在估算之前需要考虑以下因素:该特征是分类型特征还是数值型特征,缺失值是随机完全缺失、随机缺失还是非随机缺失。


对于含有随机缺失值的数值型特征,比如 'LotFrontage' ,将使用位于同一区域的房屋的中位数来进行估算。其他含有缺失值的数值型特征大多根据一定的规则进行填充,大部分情况下使用0来填充。对于分类型特征,其中一些似乎含有缺失值,但是空值(NA)实际上意味着这个变量或房子显然缺少这样的特征,例如,'PoolQC' 中的空值意味着该变量没有 'Pool' 这个属性,它应当归为 'No_pool' 。类似的方法可适用于大多数特征。


删除异常值——缺失值估算的下一步是对数据集进行探索,找出可能的异常值。可通过在散点图上可视化每列来完成。 


640?wx_fmt=png

640?wx_fmt=png

'AboveGroundLivingArea',BasementSquareF

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于使用Python进行房价预测机器学习任务,可以采用以下步骤: 1. 数据收集:收集包含房屋特征和对应价格的数据集。可以使用公开的房价数据集,或者通过爬取房产网站等方式获取数据。 2. 数据预处理:对数据进行清洗和处理,包括处理缺失值、异常值和重复值等。还可以进行特征选择、特征缩放和特征工程等操作,以提高模型性能。 3. 特征工程:根据问题的需求,对原始特征进行转换或组合,生成更有信息量的特征。例如,可以使用独热编码将类别型变量转换为数值型变量。 4. 数据划分:将数据集划分为训练集和测试集。通常,将大部分数据用于训练模型,少部分用于评估模型性能。 5. 模型选择与训练:选择适合问题的机器学习模型,例如线性回归、支持向量机、决策树等。使用训练集对模型进行训练,调整模型参数以达到更好的拟合效果。 6. 模型评估:使用测试集对训练好的模型进行评估,计算预测结果与真实值之间的误差,评估模型的性能。 7. 模型优化:根据评估结果,优化模型的参数或选择其他模型,以提高预测性能。 8. 预测与部署:使用优化后的模型进行房价预测,并将模型部署到实际应用中。 需要注意的是,以上步骤仅为一种基本的机器学习流程,实际应用中可能还需要根据具体情况进行调整和改进。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值