spss预测变量重要性不可用_基于机器学习的boston房价预测

摘要:本文研究了13个特征值对房价的影响。研究结果表明城镇人均犯罪率,住宅用地所占比例,是否有河流,环保指数,每栋住宅的房间数,距离5个波士顿的就业中心的加权距离,距离高速公路的便利指数,每一万美元的不动产税率,城镇中的教师学生比例,城镇中的黑人比例,地区中有多少房东属于低收入人群这11个因素与房价有非常显著的影响。采用三种机器学习的算法,SGD(梯度下降)算法对房价的预测的均方误差最小。

关键词: 机器学习、线性回归、spss、房价预测

一.引言

人们在生活中经常遇到分类与预测的问题,目标变量可能受多个因素影响,根据相关系数可以判断影响因子的重要性。正如一个病人得某种病是多种因素影响造成的。房子作为居住的场所,对每个人而言是不可或缺的。而房价的高低也是受多种因素的影响。房子所处的城市是一线还是二线,房子周边的交通便利程度,房子附近是否存在医院或者学校等,众多因素都会影响房价,所以对房价的预测尤为重要。本文提出了影响房价的因素有什么这一问题?以及如何利用已给的特征值来预测房价[2]?本文是利用机器学习来预测房价,同时利用spss来分析各因素与房价的线性关系。本文由于美国的国情,影响的特征值过多,分析起来比较麻烦,为了提高预测正确率,选择了三种不同算法进行评估,最后用了SGD(梯度下降)的算法进行回归分析,以为今后中国房价的预测和房地产建设提供借鉴与参考。

二.文献综述

房价的预测属于回归问题,回归问题是机器学习的的一个重要的研究方向,利用机器学习对boston数据集进行训练和预测(田润泽,2020)。可以采取算法有很多,比如采用梯度下降的算法对房价进行预测,在对数据进行训练之前,需要对数据进行处理,比如缺失值等,最后通过拟合函数以建立一个较好的预测模型(陈泽坤等,2020),(张家棋等,2020)利用XGBoost方法,被称为“极端梯度提升”,采用了分布式对房价进行预测[3]。在建立模型的时候,我考虑了回归模型,(罗博炜等,2020)用多元线性回归统计模型来预测房价,对精度有了个提升,我用的模型采用向量的方式对自变量进行定义。

三.构建模型 

为了得到房价的预测结果,本文建立线性回归模型[4],最后预测的房价作为因变量(DVs), W为一个(1,13)的向量,是权重系数,即每个自变量前面的调节系数。Xi因变量为(13,1)的向量,其中包括(城镇人均犯罪率,住宅用地所占比例,城镇中非住宅用地所占比例,是否有河流,环保指数,每栋住宅的房间数,1940 年以前建成的自住单位的比例,距离 5 个波士顿的就业中心的加权距离,距离高速公路的便利指数,每一万美元的不动产税率,城镇中的教师学生比例,城镇中的黑人比例,地区中有多少房东属于低收入人群)这13个数据。Bias为偏置,即调节预测,使预
  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值