Exploratory Data Analysis(EDA)
Exploratory Data Analysis(EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J.K.Tukey提出。
传统的统计分析方法常常先假设数据符合一种统计模型,然后依据数据样本来估计模型的一些参数及统计量,以此了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型分布,这导致数据分析结果不理想。EDA则是一种更加贴合实际情况的分析方法,它强调让数据自身“说话”,通过EDA我们可以最真实、直接的观察到数据的结构及特征。
探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别
传统的统计分析通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析。
探索性数据分析方法重视数据的真实分布,强调数据的可视化,使分析者能一目了然看出数据中隐含的规律,从而得到启发,以此帮助分析者找到适合数据的模型。
“探索性”是指分析者对有待解决的问题的理解会随着研究的深入不断变化。
EDA出现之后,数据分析的过程就分为两步:探索阶段和验证阶段。探索阶段侧重于发现数据中包含的模式或模型,验证阶段侧重于评估所发现的模式或模型,很多机器学习算法(分为训练和测试两步)都是遵循这种思想。
在数据分析工作中,利用统计学,可以更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构确定数据分析的方法,来获取更多的信息。
探索性数据分析通常有以下几个步骤:
- 检查数据
- 是否有缺失值
- 是否有异常值
- 是否有重复值
- 数据分布是否均衡
- 是否需要抽样
- 变量是否需要转换
- 是否需要增加新的特征
- 使用描述统计量和图表对数据进行描述
- 连续变量:常见的统计量有:平均值、中位数、众数、最小值、最大值、四分位数、标准差等。使用频数分布表、直方图、箱线图等。
- 无序性离散变量:各个变量出现的频数和占比;使用频数分布表、柱形图、条形图、茎叶图、饼图等;
- 有序性离散变量:各个变量出现的频数和占比