拿到数据之后,首先要做的是「探索性数据分析」,什么是探索性数据分析呢?大致可以分为以下4类:
一维数据看看分布和离群值;
二维数据看看关系和趋势;
三维数据看看维度间的两两关系;
高维数据降维。
这里需要注意的是,即使刚开始拿到的是高维数据(这里指的是三维及以上数据),也要先进行一维数据和二维数据的探索性数据分析,因为高维数据是由一维数据或二维数据组成的,一维数据和二维数据的探索性数据分析是高维数据探索性数据分析的基础。
对于高维数据,
我们可以先将高维数据拆分成一维数据,看看各个一维数据的分布和离群值;
再将拆分的一维数据两两组合成二维数据,看看各个二维数据的关系和趋势;
最后再进行高维数据的探索性数据分析。
「直方图」是看一维数据分布的最常用方法,「箱线图」是看一维数据离群值的最常用方法。「散点图」是看二维数据关系和趋势的最常用方法,如果我们只有两个变量,我们画一幅散点图就可以了。如果我们有n个变量,那么,我们需要画很多幅散点图才可以。如果我们一个一个地画散点图,那太费劲了。偷懒的方法是画「散点图矩阵」,那么,怎么画散点图矩阵呢?
示例数据集简介:gWQS包中有一个内置数据集,内置数据集的名称叫wqs_data[