描述性统计量 | 描述分散趋势
01 标准差:以平均值为基准来表示数据的离散程度。
![](https://i-blog.csdnimg.cn/blog_migrate/4e03722fe57086870f1c120ddfe4da27.png)
- 标准差是离均差(x-u)平方和平均后的方根,用σ表示。
02 方差:以平均值为基准来表示数据的离散程度。
- 方差是标准差的平方; 标准差是方差的算术平方根。
存在问题
- 数值有时会变得过大。
- 单位变为原先单位的平方。
- 需要注意的是,在“多峰性分布”(即有数个峰值)的数据中,难以考证方差与标准差。因为,在这种数据中,有很多数值与平均值相差较大,以平均数为基准的数值难以确切表明数据与平均值的关系。
03 偏差
![](https://i-blog.csdnimg.cn/blog_migrate/da0eedf77b1d022df4b040e8e99a6bb8.png)
- 偏差的优点就在于,可以比较和测量标准不同的数据。
04 五大要数:研究数据离散性
研究数据整体的离散性时,最大值、最小值以及3个四分位数被称为“5大要数”。
![](https://i-blog.csdnimg.cn/blog_migrate/ebc1e92aa9d0247cd2a4751867baf348.png)
四分位数的求法
(1)找出数据的最大值与最小值。
(2)找出数据的中位数→第二四分位数。
(3)求出中位数前半部分数据的中位数→第一四分位数。
(4)求出中位数后半部分数据的中位数→第三四分位数。
03 箱线图:以中位数为基准来表示数据离散程度。
![](https://i-blog.csdnimg.cn/blog_migrate/d51c96a687106d3ff49664eb095ea849.png)
- 被5大要数切分成的各区间,各包含了整体数据值的约25%,若每个区间的长度均等,则意味着数据整体的离散性是均匀的。反之,若各区间长度不均,则表明数据的离散程度有所偏离。