怎么做数据的EDA分析?

1.什么是EDA分析?

探索性数据分析
(Exploratory Data Analysis,简称EDA)
我的理解是,所谓“探索”,就是自己不受规则约束、用各种方法去找数据的特点、规律。

2.怎么去实现EDA分析?

首先要敢于假设,不设限。拿到一堆数据后,多少会有点猜想,那么就可以去大胆尝试和验证;

怎么验证猜想乃至挖掘出更多关系与规律呢?要多做图,通过将数据可视化来直观浅显地展示其中的数据关联。

3.具体要做哪些图?

单变量分析
基本统计量(中位数、四分位数、偏度、峰度等等) 
偏度、峰度:数据的大致分布情况,功能上与直方图类似,其虽然可量化,但不如直方图直观 
直方图 
- 对称? 
- 分散? 
- 异常值? 
- 有间隙? 
箱线图 
- 异常值? 
- 对称? 
- 比较几批数据的形状 
正态性检验 
- 图示法
- 直方图钟型? 
- 箱线图 
- QQ图 
- 非参数检验方法

两个变量的分析
线性相关? 
秩相关? 
关联性如何? 
注意: 
先绘制散点图 
要求两变量来自正态总体 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值