基于sklearn的七种回归算法预测波士顿房价

最新推荐文章于 2024-05-30 17:48:16 发布

qq_40549989

最新推荐文章于 2024-05-30 17:48:16 发布

阅读量8.3k

点赞数 9

分类专栏： machinelearning 文章标签：机器学习回归问题房价预测

本文链接：https://blog.csdn.net/qq_40549989/article/details/92709010

版权

本文介绍了使用sklearn库的七种回归算法（线性回归、岭回归、鲁棒回归、支持向量回归、最近邻回归、决策树回归和神经网络回归）预测波士顿房价的详细过程。通过实验分析，比较了不同算法的预测效果，如R²分数、解释方差、平均绝对误差和中位绝对误差等，为回归问题提供了实践参考。

摘要由CSDN通过智能技术生成

波士顿房价预测

一．数据集的介绍
波士顿房价数据集是统计的20世纪70年代中期波士顿郊区房价的中位数，统计了当时教区部分的犯罪率、房产税等共计13个指标，统计出房价，试图能找到那些指标与房价的关系。本例子明显的是属于回归模型的案例。在数据集中包含506组数据，其中404是训练样本，剩下的102组数据作为验证样本。使用sklearn.datasets.load_boston即可加载相关数据。该数据集是一个回归问题。每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率，一氧化碳浓度，住宅平均房间数，到中心区域的加权距离以及自住房平均房价等等。
CRM 城镇人均犯罪率
ZN 住宅用地所占比例，25000英尺
INDUS 城镇中非商业用地所占的比例
CHAS 查理斯河空变量（如果是河流边界，则为1，否则为0）
NOX 一氧化碳浓度
RM 住宅平均房间数
AGE 1940前建成的自用房屋比例
DIS 到波士顿5个中心区域的加权距离
RAD 辐射性公路的接近指数
TAX 每10000美元的全值财产税率
PTRATIO 城镇师生比例
B 城镇中黑人比例
LSTAT 人口中地位低下者的比例
MEDV 自助房的平均房价，以千美元记
表1：波士顿房价数据集缩写所代表的含义
二.回归问题的定义
回归问题也属于监督学习中的一类。回归用于预测输入变量和输出变量之间的关系，特别是当输入变量的值发生变化时，输出变量随之发生的变化。回归模型正是表示输入变量到输出变量之间的映射的函数。特别的当因变量与自变量。
回归问题按照输入变量的个数，可以分为一元回归和多元回归；按照输入变量与输出变量之间的关系可以分为线性回归和非线性回归。

图1：回归模型

2.1回归分析的步骤
1.根据预测目标，确定自变量和因变量。
2.建立回归预测模型。
3.进行相关分析。
4.检测回归预测模型，计算预测误差。
5.计算并确定预算误差
三.七种机器学习回归算法
3.1线性回归
线性回归（Linear Regression）是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
线性回归利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量关系之间进行建模。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为一元回归也叫简单回归，大于一个自变量的情况叫做多元回归。
3.1.1线性回归的实际用途
1.如果目标是预测或者映射，线性回归可以用来对观测数据集的y和X的值拟合出一个预测模型。当完成这样一个模型以后，对于一个新增的X的值，在没有给定与它想配对的y的情况下，可以用这个拟合过的模型预测出一个y值。
2.给定一个变量y和一些变量X1，…,Xp,这些变量有可能与y相关，线性回归分必须可以用来量化y与Xj之间相关性的强度，评估出与y不相关的Xj，并识别出哪些Xj的子集包含了关于y的冗余信息。
3.2岭回归
对于有些矩阵，矩阵中某个元素的一个很小的变动，会引起最后计算结果误差很大，这种矩阵称为“病态矩阵”。有些时候不正确的计算方法也会使一个正常的矩阵在运算中表现出病态。对于高斯消去法来说，如果主元（即对角线上的元素）上的元素很小，在计算时就会表现出病态的特征。岭回归(Ridge Regression)是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法，对病态数据的拟合要强于最小二乘法。
3.2.1特点：
岭回归是对最小二乘回归的一种补充，它损失了无偏性，来换取高的数值稳定性，从而得到较高的计算精度。通常岭回归方程的R平方值会稍低于普通回归分析，但回归系数的显著性往往明显高于普通回归，在