用Python做一个房价预测小工具

最新推荐文章于 2023-08-08 17:52:44 发布

代码输入中...

最新推荐文章于 2023-08-08 17:52:44 发布

阅读量647

点赞数 1

文章标签： python 机器学习 pycharm 爬虫数据分析

本文链接：https://blog.csdn.net/m0_59485658/article/details/123876761

版权

本文介绍了一个房价预测案例，涵盖了从探索性数据分析（EDA）、特征工程到模型训练的全过程。通过EDA，作者发现了与房价密切相关的特征如OverallQual、GrLivArea、GarageCars和TotalBsmtSF。在特征工程中，进行了特征类型校正、缺失值处理、偏度校正和特征融合。最后，尝试了单一模型如岭回归以及模型融合方法，如stacking和线性融合，以提高预测效果。

摘要由CSDN通过智能技术生成

哈喽，大家好。

这是一个房价预测的案例，是很多算法初学者的第一道竞赛题目。

该案例有着解机器学习问题的完整流程，包含EDA、特征工程、模型训练、模型融合等。

房价预测流程

下面跟着我，来学习一下该案例。

没有啰嗦的文字，没有多余的代码，只有通俗的讲解。

一. EDA

探索性数据分析(Exploratory Data Analysis，简称EDA) 的目的是让我们对数据集有充分的了解。在这一步，我们探索的内容如下：

EDA内容

1.1 输入数据集

train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')

训练样本

train和test分别是训练集和测试集，分别有 1460 个样本，80 个特征。

SalePrice列代表房价，是我们要预测的。

1.2 房价分布

因为我们任务是预测房价，所以在数据集中核心要关注的就是房价（SalePrice) 一列的取值分布。

sns.distplot(train['SalePrice']);

房价取值分布

从图上可以看出，SalePrice列峰值比较陡，并且峰值向左偏。

也可以直接调用skew()和kurt()函数计算SalePrice具体的偏度和峰度值。

对于偏度和峰度都比较大的情况，建议对SalePrice列取log()进行平滑。

1.3 与房价相关的特征

了解完SalePrice的分布后，我们可以计算 80 个特征与SalePrice的相关关系。

重点关注与SalePrice相关性最强的 10 个特征。

# 计算列之间相关性
corrmat = train.corr()
# 取 top10
k = 10
cols = corrmat.nlargest(k, 'SalePrice')['SalePrice'].index
# 绘图
cm = np.corrcoef(train[cols].values.T)
sns.set(font_scale=1.25)
hm = sns.heatmap(cm, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
plt.show()

最低0.47元/天解锁文章

代码输入中...

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
用Python做一个房价预测小工具

哈喽，大家好。这是一个房价预测的案例，是很多算法初学者的第一道竞赛题目。该案例有着解机器学习问题的完整流程，包含EDA、特征工程、模型训练、模型融合等。房价预测流程下面跟着我，来学习一下该案例。没有啰嗦的文字，没有多余的代码，只有通俗的讲解。一. EDA探索性数据分析(Exploratory Data Analysis，简称EDA) 的目的是让我们对数据集有充分的了解。在这一步，我们探索的内容如下：EDA内容1.1 输入数据集train = pd.rea..
复制链接

扫一扫