探索性数据分析(EDA)


全版英文教程在此

探索性数据分析(EDA)目的是最大化对数据的直觉,完成这个事情的方法只能是结合统计学的图形以各种形式展现出来。通过EDA可以实现:
1. 得到数据的直观表现
2. 发现潜在的结构
3. 提取重要的变量
4. 处理异常值
5. 检验统计假设
6. 建立初步模型
7. 决定最优因子的设置

数据类型

数据一般按类型分为两种:离散型连续型;针对这两种类型的EDA可参照Seaborn教程
离散型的数据相当于分类型数据,如性别、种族、教育程度等。其中,有些类别是没有顺序的,如性别;有些类别则是有顺序的,如教育程度。这两种情况分别称为名义变量有序变量
对于连续型变量,一般是在值域里面连续取值,这种变量一般是有序的。

统计量
  • 中位数、方差、 内距( Q3Q1 )
  • 箱线图和直方图
一般步骤

1.拿到数据后,用来探索的方法分为两类,一是基于图像的,二是基于定量方法的。
常见问题:
- 一般统计量:均值,中位数,方差,分布,分位数,
- 工程修改是否 产生作用:变量变换、缺失值处理
- 自变量是否对结果有影响
- 响应变量和自变量之间的最佳函数
- 时间相关数据能否信噪分离
- 多维变量提取结构?
- 离群值?

具体技术

1.自相关图
检验数据集随机性的技术,通过不同时滞下的自相关系数来刻画。通过自相关可以得到:
- 数据是否随机
- 时间序列是否白噪声
- 是否正弦波
- 是否自回归?
- 适合的时间序列模型
2.双柱状图(Bihistogram)
wu无需纠结t检验,直接画图可以看出来
3.块图(block plot)
4.Bootstrap plot
5.Box-cox变换
用来消除偏斜,趋向于正态分布

参考文献
  1. http://blog.csdn.net/a358463121/article/details/55003356
  2. 很翔实的教程handbook
  3. https://www.linkedin.com/pulse/feature-engineering-data-scientists-secret-sauce-ashish-kumar
  4. https://www.analyticsvidhya.com/blog/2017/01/t-sne-implementation-r-python/
  5. http://blog.csdn.net/han____shuai/article/details/52224312
  6. 特征构造
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值