探索性数据分析最重要的作用是把数据的全貌进行展现
单因子分析
- 集中趋势:均值、中位数与分位数、众数
- 离中趋势:标准差、方差
- 数据分布:偏态与峰态、正态分布与三大分布
- 抽样理论:抽样误差、抽样精度
集中趋势
集中趋势——均值、中位数、众数、分位数
集中趋势是数据聚拢位置的一种衡量
分位数
分位数就是把数据从小到大排列,切分成等份的数据点
分位数和其他几个值共同作用,有时会产生一些不错的效果
分位数当中最常用到的是四分位数
四分位数的计算方法
- Q1的位置=(n+1)*0.25
- Q2的位置=(n+1)*0.5
- Q3的位置=(n+1)*0.75
离中趋势
离中趋势——标准差、方差
离中趋势是数据离散程度的衡量
数据分布
数据分布主要包括偏态系数、峰态系数、正态分布和三大分布
偏态系数
偏态系数是数据平均值偏离状态的一种衡量
一个对称的分布其中位数和均值应该接近或者相等。如果一个分布中位数和均值差得比较多,这样的分布就是有偏态的分布
如果偏态系数值为正,就是正偏,就是均值比较大
如果偏态系数值为负,就是负偏,就是中位数比较小
峰态系数
峰态系数是数据分布集中强度的衡量
峰态系数越大其顶就会越尖锐,峰态系数越小其分布就会越平缓
正态分布的峰态系数一般是3
正态分布
三大分布
卡方分布、t分布和F分布
抽样理论
为什么要抽样呢,因为数据量可能异常大,全量计算的时间成本和现实成本都比较大
或者全量检验并不显示,比如测灯泡的寿命
抽样误差与精度
举例