探索性数据分析(EDA)


全版英文教程在此

探索性数据分析(EDA)目的是最大化对数据的直觉,完成这个事情的方法只能是结合统计学的图形以各种形式展现出来。通过EDA可以实现:
1. 得到数据的直观表现
2. 发现潜在的结构
3. 提取重要的变量
4. 处理异常值
5. 检验统计假设
6. 建立初步模型
7. 决定最优因子的设置

数据类型

数据一般按类型分为两种:离散型连续型;针对这两种类型的EDA可参照Seaborn教程
离散型的数据相当于分类型数据,如性别、种族、教育程度等。其中,有些类别是没有顺序的,如性别;有些类别则是有顺序的,如教育程度。这两种情况分别称为名义变量有序变量
对于连续型变量,一般是在值域里面连续取值,这种变量一般是有序的。

统计量
  • 中位数、方差、 内距(Q3Q1)
  • 箱线图和直方图

一般步骤

1.拿到数据后,用来探索的方法分为两类,一是基于图像的,二是基于定量方法的。
常见问题:
- 一般统计量:均值,中位数,方差,分布,分位数,
- 工程修改是否 产生作用:变量变换、缺失值处理
- 自变量是否对结果有影响
- 响应变量和自变量之间的最佳函数
- 时间相关数据能否信噪分离
- 多维变量提取结构?
- 离群值?

具体技术

1.自相关图
检验数据集随机性的技术,通过不同时滞下的自相关系数来刻画。通过自相关可以得到:
- 数据是否随机
- 时间序列是否白噪声
- 是否正弦波
- 是否自回归?
- 适合的时间序列模型
2.双柱状图(Bihistogram)
wu无需纠结t检验,直接画图可以看出来
3.块图(block plot)
4.Bootstrap plot
5.Box-cox变换
用来消除偏斜,趋向于正态分布

参考文献

  1. http://blog.csdn.net/a358463121/article/details/55003356
  2. 很翔实的教程handbook
  3. https://www.linkedin.com/pulse/feature-engineering-data-scientists-secret-sauce-ashish-kumar
  4. https://www.analyticsvidhya.com/blog/2017/01/t-sne-implementation-r-python/
  5. http://blog.csdn.net/han____shuai/article/details/52224312
  6. 特征构造
展开阅读全文

没有更多推荐了,返回首页