下边接着是类别变量的分析
要知道,数据探索的目的是帮助我们了解数据并且构建有效特征。比如,我们找到了与标签有着强相关的特征,那么就可以围绕这个强相关特征进行一系列的扩展,具体可以进行交叉组合,比如强相关加弱相关、强相关加强相关等组合,挖掘更高维度的潜在信息。
多变量分析
单变量分析太过单一,不足以挖掘变量之间的内在联系,获取更加细粒度的信息,所以多变量分析就成了必须。分析特征变量与特征变量之间的关系有助于构建更好的特征,同时降低构建冗余特征的概率。
从上面的相似性矩阵中,我们了解到房屋评价与 SalePrice 呈正相关。进一步扩展分析,考虑房屋评价和房屋位置是否存在某种联系呢?接下来,我们将通过可视化的方式来展现这两者的联系,具体实现代码如下:
plt.style.use(