Pandas+Seaborn 查看变量间相关性--kaggle房价预测项目(一)

本文通过Pandas和Seaborn分析kaggle房价预测项目中的变量相关性。通过相关系数矩阵和热力图发现,'OverallQual'、'GrLivArea'、'TotalBsmtSF'、'GarageCars'与房价高度相关。同时,'GarageArea'和'GarageCars'、'TotalBsmtSF'和'1stFloor'存在强相关性,建议只保留一个。进一步分析中,使用散点图和箱型图展示了与房价关系密切的连续和离散变量。
摘要由CSDN通过智能技术生成

1.进行各数值变量的相关性分析

import seaborn as sns
import pandas as pd
corrmat = train.corr() ##corrmat是相关性矩阵
corrmat

表中具体数值是变量间的相关系数
在这里插入图片描述
2.根据相关系数绘制相关系数热力图

热力图可以迅速查看变量相关性。
颜色越浅的地方说明两个变量的相关性越强。
观察saleprice和其他变量的关系发现GrLivArea(地上居住面积)、OverallQual(整体质量)、GarargeCars(车库能装几辆车)等变量的颜色比较浅,说明它们对房价的预测能力可能比较强。

另外可以看到其他变量中也可能存在强相关关系,这可能是因为多重共线性导致,对于这部分特征,后续也要考虑进行处理。

f, ax = plt.subplots(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.8, square=True) 

在这里插入图片描述
heatmap用法

seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt='.2g', annot_kws=None, linewidths=0, linecolor='white', cbar=True, cbar_kws=None, cbar_ax=None, square=False, xticklabels='auto', yticklabels='auto', mask=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值