用Python做一个房价预测小工具

本文介绍了一个房价预测案例,涵盖了从探索性数据分析(EDA)、特征工程到模型训练的全过程。通过EDA,作者发现了与房价密切相关的特征如OverallQual、GrLivArea、GarageCars和TotalBsmtSF。在特征工程中,进行了特征类型校正、缺失值处理、偏度校正和特征融合。最后,尝试了单一模型如岭回归以及模型融合方法,如stacking和线性融合,以提高预测效果。
摘要由CSDN通过智能技术生成

哈喽,大家好。

这是一个房价预测的案例,是很多算法初学者的第一道竞赛题目。

该案例有着解机器学习问题的完整流程,包含EDA、特征工程、模型训练、模型融合等。

房价预测流程

下面跟着我,来学习一下该案例。

没有啰嗦的文字,没有多余的代码,只有通俗的讲解。

一. EDA

探索性数据分析(Exploratory Data Analysis,简称EDA) 的目的是让我们对数据集有充分的了解。在这一步,我们探索的内容如下:

EDA内容

1.1 输入数据集

train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')

训练样本

train和test分别是训练集和测试集,分别有 1460 个样本,80 个特征。

SalePrice列代表房价,是我们要预测的。

1.2 房价分布

因为我们任务是预测房价,所以在数据集中核心要关注的就是房价(SalePrice) 一列的取值分布。

sns.distplot(train['SalePrice']);

房价取值分布

从图上可以看出,SalePrice列峰值比较陡,并且峰值向左偏。

也可以直接调用skew()和kurt()函数计算SalePrice具体的偏度和峰度值。

对于偏度和峰度都比较大的情况,建议对SalePrice列取log()进行平滑。

1.3 与房价相关的特征

了解完SalePrice的分布后,我们可以计算 80 个特征与SalePrice的相关关系。

重点关注与SalePrice相关性最强的 10 个特征。

# 计算列之间相关性
corrmat = train.corr()
# 取 top10
k = 10
cols = corrmat.nlargest(k, 'SalePrice')['SalePrice'].index
# 绘图
cm = np.corrcoef(train[cols].values.T)
sns.set(font_scale=1.25)
hm = sns.heatmap(cm, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
plt.show()
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值