深入浅出统计学（三）— 分散性与变异性的量度

鲤喙

已于 2024-04-16 14:01:13 修改

阅读量2.2k

点赞数 29

分类专栏：数据分析 — 统计学文章标签：数据分析

于 2024-04-16 09:56:43 首次发布

本文链接：https://blog.csdn.net/qq_47343046/article/details/137808241

版权

该博客围绕数据分析展开，介绍了全距、四分位距、百分位距等多种距的概念、计算方法及用途，如四分位距可剔除异常值；还阐述了箱线图的概念与分析方法；此外，讲解了方差、标准差和标准分的含义，标准分可用于比较不同数据集及识别异常值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.基本概念

全距/极差（Range） : 全距也叫极差，是用于量度数据集分散程度的一种方法。其算法为:上界-下界, 其中上界为最大值，下界为最小值。
四分位距（Interquartile Range，IQR）:四分位距是描述数据集中间50%数据分布范围的一种统计量。
百分位距（Percentile Range）：介于两个百分数之间的距离。
箱线图（Box Plot）：也称为箱形图、盒式图，体现多种距和四分位数。
方差（Variance）：方差是数据集中所有数据点与数据集均值之间的平方差的平均值，用来度量数据的分散程度。方差越大，表示数据点之间的差异程度越大，数据分散程度越高。
标准差（Standard Deviation）： 标准差是方差的平方根。标准差的单位与原始数据的单位相同。
标准分/ z 分数（Z-score):标准分表示一个数据点与数据集均值之间的差异程度，以标准差为单位来度量。标准分 = 距离均值的标准差个数