基于线性回归算法的房价预测项目

最新推荐文章于 2024-06-26 10:56:54 发布

AlphaProgrammer

最新推荐文章于 2024-06-26 10:56:54 发布

阅读量3.4k

点赞数 9

分类专栏：机器学习文章标签：机器学习 python 统计学

本文链接：https://blog.csdn.net/weixin_43233076/article/details/106497101

版权

本文通过分析数据，发现房价中位数与收入中位数高度相关，并使用线性回归模型进行预测。数据显示收入中位数存在异常值，房价分布右偏。通过对数据取对数和填充缺失值，模型在训练集和测试集上的得分分别为0.636和0.629。可视化结果显示模型预测与实际房价匹配较好，但在高房价区域表现稍逊。

摘要由CSDN通过智能技术生成

1. 查看数据的基本信息

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns  

path = r"D:\python\course\Aurelien Geron\housing.xlsx" 
data = pd.read_excel(path) 
print(data.head()) 
print(data.shape)

在这里插入图片描述

print(data.info())

在这里插入图片描述
从上图可以看到总登记房屋消息有20640条，而总卧室数量的条目数比其他项目少了7条，说明有7行空缺。

# 查看一下每列数据中有多少缺省值
print(data.isnull().sum(axis=0))

在这里插入图片描述
2. 根据data.corr() 绘制heatmap

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 

path = r"D:\python\course\Aurelien Geron\housing.xlsx" 
data = pd.read_excel(path) 
print(data.head()) 

# 查找关联度, corr()函数会自动忽略掉字符串列“ocean_proximity” 
corr_matrix = data.corr() 
print(corr_matrix)  

plt.figure(figsize=(15, 10))
ax = sns.heatmap(data.corr(), cmap=plt.cm.RdYlGn, annot=True, fmt=".2f", annot_kws={
   'size':18}) 

plt.legend(prop={
   "size":18}) 
# 设置刻度字体大小
plt.xticks(fontsize=18)
plt.yticks(fontsize=18)
# 可手动调整y轴的范围来进行修复。(老版本的Matplotlib不需要调整y轴范围。) 
a, b = ax.get_ylim()
ax.set_ylim(a + 0.5, b - 0.5) 
plt.show()

在这里插入图片描述
从这个heatmap上可以看出来：

人口和家庭数的Pearson相关系数高度相关（达到0.98）；
而总的卧室数目和家庭数目的Pearson相关系数也高度相关（高达0.88）；
人口和总房间数的相关系数的正相关性也挺高（0.86）；
而最关心的房价中位数和收入中位数的相关系数最高（0.69）。

因此我们想重点看一年房价中位数和收入中位数间更详细的关系。

先使用不设置alpha值的散点图查看房价中位数和收入中位数的关系（左图），可以看到散点太稠密，堆叠在一起，很看看清楚细节。而右边的图将alpha值设为0.1后，可以看到收入中位数和房价中位数间更加细致的对应关系。而pyplot 中的参数alpha 是负责颜色透明度的，值介于[0, 1]: 1表示不透明，0表示透明。

data.plot(kind='scatter', x='median_income', y='median_house_value'

最低0.47元/天解锁文章

AlphaProgrammer

关注

9
点赞
踩
38

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录