数据挖掘与数据分析(二)—— 探索性数据分析EDA(单因子与对比分析) & 可视化 (1) —— 集中趋势 & 离中趋势 & 数据分布(偏态系数&峰态系数&正态分布&三大分布)&抽样理论(误差精度)

探索性数据分析最重要的作用是把数据的全貌进行展现

 

单因子分析

  • 集中趋势:均值、中位数与分位数、众数
  • 离中趋势:标准差、方差
  • 数据分布:偏态与峰态、正态分布与三大分布
  • 抽样理论:抽样误差、抽样精度
     

 

集中趋势

集中趋势——均值、中位数、众数、分位数

集中趋势是数据聚拢位置的一种衡量

 

分位数

分位数就是把数据从小到大排列,切分成等份的数据点

分位数和其他几个值共同作用,有时会产生一些不错的效果

 

分位数当中最常用到的是四分位数

四分位数的计算方法

  • Q1的位置=(n+1)*0.25
  • Q2的位置=(n+1)*0.5
  • Q3的位置=(n+1)*0.75

 

离中趋势

离中趋势——标准差、方差

离中趋势是数据离散程度的衡量

 

 

数据分布

数据分布主要包括偏态系数、峰态系数、正态分布和三大分布

 

偏态系数

偏态系数是数据平均值偏离状态的一种衡量

一个对称的分布其中位数和均值应该接近或者相等。如果一个分布中位数和均值差得比较多,这样的分布就是有偏态的分布

如果偏态系数值为正,就是正偏,就是均值比较大

如果偏态系数值为负,就是负偏,就是中位数比较小

 

峰态系数

峰态系数是数据分布集中强度的衡量

峰态系数越大其顶就会越尖锐,峰态系数越小其分布就会越平缓

 

正态分布的峰态系数一般是3

 

正态分布

正态分布 的图像结果

 

三大分布

卡方分布、t分布和F分布

 

抽样理论

为什么要抽样呢,因为数据量可能异常大,全量计算的时间成本和现实成本都比较大

或者全量检验并不显示,比如测灯泡的寿命

 

抽样误差与精度

 

举例

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值