探索性数据分析(EDA)目的是最大化对数据的直觉,完成这个事情的方法只能是结合统计学的图形以各种形式展现出来。通过EDA可以实现:
1. 得到数据的直观表现
2. 发现潜在的结构
3. 提取重要的变量
4. 处理异常值
5. 检验统计假设
6. 建立初步模型
7. 决定最优因子的设置
数据类型
数据一般按类型分为两种:离散型和连续型;针对这两种类型的EDA可参照Seaborn教程
离散型的数据相当于分类型数据,如性别、种族、教育程度等。其中,有些类别是没有顺序的,如性别;有些类别则是有顺序的,如教育程度。这两种情况分别称为名义变量和有序变量。
对于连续型变量,一般是在值域里面连续取值,这种变量一般是有序的。
统计量
- 中位数、方差、 内距( Q3−Q1 )
- 箱线图和直方图
一般步骤
1.拿到数据后,用来探索的方法分为两类,一是基于图像的,二是基于定量方法的。
常见问题:
- 一般统计量:均值,中位数,方差,分布,分位数,
- 工程修改是否 产生作用:变量变换、缺失值处理
- 自变量是否对结果有影响
- 响应变量和自变量之间的最佳函数
- 时间相关数据能否信噪分离
- 多维变量提取结构?
- 离群值?
具体技术
1.自相关图
检验数据集随机性的技术,通过不同时滞下的自相关系数来刻画。通过自相关可以得到:
- 数据是否随机
- 时间序列是否白噪声
- 是否正弦波
- 是否自回归?
- 适合的时间序列模型
2.双柱状图(Bihistogram)
wu无需纠结t检验,直接画图可以看出来
3.块图(block plot)
4.Bootstrap plot
5.Box-cox变换
用来消除偏斜,趋向于正态分布