深入浅出统计学(三)— 分散性与变异性的量度

该博客围绕数据分析展开,介绍了全距、四分位距、百分位距等多种距的概念、计算方法及用途,如四分位距可剔除异常值;还阐述了箱线图的概念与分析方法;此外,讲解了方差、标准差和标准分的含义,标准分可用于比较不同数据集及识别异常值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1.基本概念

2. 全距  (极差)

3. 四分位距

3.1  四分位数

3.1.1 概念

3.1.2 计算

3.2 四分位距

3.2.1 计算

3.2.2 四分位距剔除提异常值

4. 百分位距

4.1 十分位距

4.2 百分位距

4.2.1 概念

4.2.2 用途

4.2.3 计算

百分位数的计算:

百分位距的计算:

5. 箱线图

5.1 概念

​编辑

5.2 分析

6. 方差和标准差

6.1 方差

快速计算公式

6.2 标准差

6.3 标准分/z 分数(Z-score)

6.3.1 概念

6.3.2 标准分释义


1.基本概念

  • 全距/极差(Range) : 全距也叫极差,是用于量度数据集分散程度的一种方法。其算法为:上界-下界, 其中上界为最大值,下界为最小值。
  • 四分位距(Interquartile Range,IQR):四分位距是描述数据集中间50%数据分布范围的一种统计量。
  • 百分位距(Percentile Range):介于两个百分数之间的距离。
  • 箱线图(Box Plot):也称为箱形图、盒式图,体现多种距 和四分位数。
  • 方差(Variance): 方差是数据集中所有数据点与数据集均值之间的平方差的平均值,用来度量数据的分散程度。方差越大,表示数据点之间的差异程度越大,数据分散程度越高。

  • 标准差(Standard Deviation): 标准差是方差的平方根。标准差的单位与原始数据的单位相同。

  • 标准分/ z 分数(Z-score):标准分表示一个数据点与数据集均值之间的差异程度,以标准差为单位来度量。标准分 = 距离均值的标准差个数

2. 全距  (极差)

全距也叫极差,是用于量度数据集分散程度的一种方法。其算法为:上界-下界, 其中上界为最大值,下界为最小值。

全距仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态。

由于全距是通过数据极值计算得出的,因此不可能指出数据的真实形态以及数据是否包含异常值。

3. 四分位距

四分位距(Interquartile Range,IQR)主要用于描述数据集中间50%数据的分布范围,相比于全距(Range),四分位距更为稳健,对极端值(异常值)不敏感

3.1  四分位数

3.1.1 概念

  1. 下四分位数(Q1):将数据集的前25%数据与后75%数据分隔开的数值点。也就是说,Q1是数据集中最小的四分之一数值点。

  2. 中位数(Q2):也称为中位数,是将数据集分成两半的数值点,即50%的数据小于等于Q2,50%的数据大于等于Q2。

  3. 上四分位数(Q3):将数据集的前75%数据与后25%数据分隔开的数值点。也就是说,Q3是数据集中最大的四分之三数值点。

3.1.2 计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值