1.进行各数值变量的相关性分析
import seaborn as sns
import pandas as pd
corrmat = train.corr() ##corrmat是相关性矩阵
corrmat
表中具体数值是变量间的相关系数
2.根据相关系数绘制相关系数热力图
热力图可以迅速查看变量相关性。
颜色越浅的地方说明两个变量的相关性越强。
观察saleprice和其他变量的关系发现GrLivArea(地上居住面积)、OverallQual(整体质量)、GarargeCars(车库能装几辆车)等变量的颜色比较浅,说明它们对房价的预测能力可能比较强。
另外可以看到其他变量中也可能存在强相关关系,这可能是因为多重共线性导致,对于这部分特征,后续也要考虑进行处理。
f, ax = plt.subplots(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.8, square=True)
heatmap用法
seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, robust=False, annot=None, fmt='.2g', annot_kws=None, linewidths=0, linecolor='white', cbar=True, cbar_kws=None, cbar_ax=None, square=False, xticklabels='auto', yticklabels='auto', mask=