Python基于决策树回归模型、多元线性回归模型、随机森林回归模型和LightGBM回归模型实现波士顿房价预测项目实战

376 篇文章 273 订阅

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

1.项目背景

城市住房市场的稳定与健康发展是衡量一个地区经济活力和社会福祉的重要指标之一。波士顿,作为美国东海岸的文化、教育和科技中心,其房地产市场一直备受关注。随着人口增长、经济波动以及政策调整,波士顿的房价呈现出复杂多变的趋势,这对购房者、投资者以及政策制定者提出了更高的要求——即需要准确预测房价走势,以便做出合理决策。

近年来,大数据分析和机器学习技术的飞速发展为解决复杂预测问题提供了强大工具。利用历史房价数据、经济指标、人口统计数据以及地理信息等多元数据,构建精准的房价预测模型成为了可能。然而,波士顿房价受多种因素影响,包括地理位置、教育资源、交通条件、就业机会、利率变动等,这要求预测模型必须具备高度的复杂性和适应性。

本项目旨在开发一套基于机器学习的波士顿房价预测模型。

通过提供及时准确的房价预测,增强市场参与者的信心,减少信息不对称带来的风险。帮助投资者和开发商更好地定位投资方向,引导资金流向最具潜力的地区,促进房地产市场的健康发展。

为地方政府提供数据支持,助力精准调控,平衡供需关系,防止房地产泡沫,维护社会稳定。波士顿房价预测项目不仅体现了技术的力量,更彰显了大数据和人工智能在解决社会经济问题中的巨大潜力,为推动智慧城市建设、提升民众生活质量贡献力量。

本项目通过决策树回归模型、多元线性回归模型、随机森林回归模型和LightGBM回归模型实现波士顿房价预测。    

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:

编号 

变量名称

描述

1

CRIM

城镇人均犯罪率。

2

ZN

占地面积超过2.5万平方英尺的住宅用地比例。

3

INDUS

镇上非零售商业用地的比例。

4

CHAS

查尔斯河虚拟变量(如果是河流边界则为1,否则为0)。

5

NOX

一氧化氮浓度(每千万分之几)。

6

RM

住宅平均房间数。

7

AGE

1940年前建造的自住单元比例。

8

DIS

到五个波士顿就业中心的加权距离。

9

RAD

径向高速公路可达性指数。

10

TAX

全值财产税率。

11

PTRATIO

镇上学生与教师的比例。

12

B

1000(Bk - 0.63)^2,其中Bk是城镇的黑人比例。

13

LSTAT

低收入人群比例。

14

PRICE

价格

数据详情如下(部分展示):

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据:

关键代码:

3.2数据缺失查看

使用Pandas工具的info()方法查看数据信息:

从上图可以看到,总共有14个变量,数据中无缺失值,共506条数据。

关键代码:  

3.3数据描述性统计

通过Pandas工具的describe()方法来查看数据的平均值、标准差、最小值、分位数、最大值。

关键代码如下:  

4.探索性数据分析

4.1 PRICE变量分布直方图

用Matplotlib工具的hist()方法绘制直方图:

4.2 相关性分析

从上图中可以看到,数值越大相关性越强,正值是正相关、负值是负相关。

5.特征工程

5.1 建立特征数据和标签数据

关键代码如下:

5.2 数据集拆分

通过train_test_split()方法按照80%训练集、20%测试集进行划分,关键代码如下:

6.构建回归模型 

主要使用决策树回归模型、多元线性回归模型、随机森林回归模型和LightGBM回归模型实现波士顿房价预测,用于目标回归。 

6.1 构建模型  

编号

模型名称

参数

1

决策树回归模型 

默认参数

2

random_state=123

3

多元线性回归模型

默认参数

4

随机森林回归模型

默认参数

5

random_state=42

6

LightGBM回归模型

默认参数

7

random_state=42

7.模型评估

7.1评估指标及结果 

评估指标主要包括R方、均方误差、解释性方差、绝对误差等等。

模型名称

指标名称

指标值

测试集

决策树回归模型 

R方

0.6876

均方误差

22.9097

解释方差分

0.6877

绝对误差

2.7225

多元线性回归模型

R方

0.6688

均方误差

24.2911

解释方差分

0.6695

绝对误差

3.1891

随机森林回归模型

R方

0.8923

均方误差

7.9015

解释方差分

0.8927

绝对误差

2.0395

LightGBM回归模型

R方

0.8863

均方误差

8.3388

解释方差分

0.8881

绝对误差

2.0025

从上表可以看出,随机森林模型和LightGBM模型在波士顿房价数据集上表现较好,达到了0.88以上。

7.2 真实值与预测值对比图

决策树回归模型:

多元线性回归模型:

随机森林回归模型:

LightGBM回归模型:

从上图可以看出随机森林模型和LightGBM模型真实值和预测值波动基本一致,模型效果良好。 

7.3 特征重要性

决策树回归模型:

随机森林回归模型:

LightGBM回归模型:

8.结论与展望

综上所述,本文采用了决策树、多元线性回归、随机森林和LightGBM来构建回归模型,最终证明了随机森林模型和LightGBM模型效果良好。此模型可用于日常产品的预测。 

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/10-YeAvEN-SHS1BTOlIS4ng 
提取码:6rea
  • 22
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖哥真不错

您的鼓励,将是我最大的坚持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值