探索性数据分析是对一些初步的杂乱无章的数据,在尽量少的先验假设下进行处理,通过作图,制表等形式和方程拟合,计算某些特征量等手段,探索数据的结构和规律的一种数据分析方法。
单变量分析:
数据的典型值是多少:均值和中位数
频率和众数
百分位数
位置度量:均值和中位数
散布度量:方差、标准差、偏度、峰度、四分位数极差
两个变量的关系:
两个数值型变量线性相关(服从二元正态分布)
秩相关(两个有序的分类变量)
两个无序分类变量关联性分析
皮尔逊相关系数 检测变量间的线性相关性的
多个分量
网状图