1.什么是EDA分析?
探索性数据分析
(Exploratory Data Analysis,简称EDA)
我的理解是,所谓“探索”,就是自己不受规则约束、用各种方法去找数据的特点、规律。
2.怎么去实现EDA分析?
首先要敢于假设,不设限。拿到一堆数据后,多少会有点猜想,那么就可以去大胆尝试和验证;
怎么验证猜想乃至挖掘出更多关系与规律呢?要多做图,通过将数据可视化来直观浅显地展示其中的数据关联。
3.具体要做哪些图?
单变量分析
基本统计量(中位数、四分位数、偏度、峰度等等)
偏度、峰度:数据的大致分布情况,功能上与直方图类似,其虽然可量化,但不如直方图直观
直方图
- 对称?
- 分散?
- 异常值?
- 有间隙?
箱线图
- 异常值?
- 对称?
- 比较几批数据的形状
正态性检验
- 图示法
- 直方图钟型?
- 箱线图
- QQ图
- 非参数检验方法
两个变量的分析
线性相关?
秩相关?
关联性如何?
注意:
先绘制散点图
要求两变量来自正态总体