摘要:本文研究了13个特征值对房价的影响。研究结果表明城镇人均犯罪率,住宅用地所占比例,是否有河流,环保指数,每栋住宅的房间数,距离5个波士顿的就业中心的加权距离,距离高速公路的便利指数,每一万美元的不动产税率,城镇中的教师学生比例,城镇中的黑人比例,地区中有多少房东属于低收入人群这11个因素与房价有非常显著的影响。采用三种机器学习的算法,SGD(梯度下降)算法对房价的预测的均方误差最小。
关键词: 机器学习、线性回归、spss、房价预测
一.引言
人们在生活中经常遇到分类与预测的问题,目标变量可能受多个因素影响,根据相关系数可以判断影响因子的重要性。正如一个病人得某种病是多种因素影响造成的。房子作为居住的场所,对每个人而言是不可或缺的。而房价的高低也是受多种因素的影响。房子所处的城市是一线还是二线,房子周边的交通便利程度,房子附近是否存在医院或者学校等,众多因素都会影响房价,所以对房价的预测尤为重要。本文提出了影响房价的因素有什么这一问题?以及如何利用已给的特征值来预测房价[2]?本文是利用机器学习来预测房价,同时利用spss来分析各因素与房价的线性关系。本文由于美国的国情,影响的特征值过多,分析起来比较麻烦,为了提高预测正确率,选择了三种不同算法进行评估,最后用了SGD(梯度下降)的算法进行回归分析,以为今后中国房价的预测和房地产建设提供借鉴与参考。二.文献综述
房价的预测属于回归问题,回归问题是机器学习的的一个重要的研究方向,利用机器学习对boston数据集进行训练和预测(田润泽,2020)。可以采取算法有很多,比如采用梯度下降的算法对房价进行预测,在对数据进行训练之前,需要对数据进行处理,比如缺失值等,最后通过拟合函数以建立一个较好的预测模型(陈泽坤等,2020),(张家棋等,2020)利用XGBoost方法,被称为“极端梯度提升”,采用了分布式对房价进行预测[3]。在建立模型的时候,我考虑了回归模型,(罗博炜等,2020)用多元线性回归统计模型来预测房价,对精度有了个提升,我用的模型采用向量的方式对自变量进行定义。三.构建模型
为了得到房价的预测结果,本文建立线性回归模型[4],最后预测的房价作为因变量(DVs), W为一个(1,13)的向量,是权重系数,即每个自变量前面的调节系数。Xi因变量为(13,1)的向量,其中包括(城镇人均犯罪率,住宅用地所占比例,城镇中非住宅用地所占比例,是否有河流,环保指数,每栋住宅的房间数,1940 年以前建成的自住单位的比例,距离 5 个波士顿的就业中心的加权距离,距离高速公路的便利指数,每一万美元的不动产税率,城镇中的教师学生比例,城镇中的黑人比例,地区中有多少房东属于低收入人群)这13个数据。Bias为偏置,即调节预测,使预