-
基本概念
- 偏态分布(Skewed Distribution)是一种概率分布,它与正态分布相对。正态分布是对称的,而偏态分布是非对称的,即数据在分布的一侧比另一侧有更长的“尾巴”。
- 偏态分布分为正偏态分布和负偏态分布。在正偏态分布中,数据的右侧(较大值的一侧)有较长的尾巴,这意味着分布中有少数较大的值将分布的右侧“拉长”。例如,收入数据通常呈正偏态分布,因为少数高收入者会拉高右侧的尾巴,大部分人的收入集中在较低的区间。在负偏态分布中,数据的左侧(较小值的一侧)有较长的尾巴,即少数较小的值使分布的左侧“拉长”。例如,考试成绩如果出现负偏态,说明有少数很低的分数将分布向左拉,大部分学生的成绩相对较高。
-
衡量指标 - 偏度(Skewness)
- 偏度是用来量化偏态分布程度的统计指标。它的计算涉及到数据的三阶矩。对于一个样本数据集
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn,样本偏度的计算公式较为复杂,简单表示为:
S k e w n e s s = n ( n − 1 ) ( n − 2 ) ∑ i = 1 n ( x i − x ‾ s ) 3 Skewness = \frac{n}{(n - 1)(n - 2)}\sum_{i = 1}^{n}(\frac{x_i-\overline{x}}{s})^3 Skewness=(n−1)(n−2)n∑i=1n(sxi−x)3
其中 x ‾ \overline{x} x是样本均值, s s s是样本标准差。 - 偏度的值可以解释分布的形状:
- 偏度 = 0时,表示数据是对称分布,很可能是正态分布。
- 偏度 > 0时,表示正偏态分布,右侧尾巴较长。
- 偏度 < 0时,表示负偏态分布,左侧尾巴较长。
- 偏度是用来量化偏态分布程度的统计指标。它的计算涉及到数据的三阶矩。对于一个样本数据集
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn,样本偏度的计算公式较为复杂,简单表示为:
-
与正态分布的对比
- 形状差异:正态分布是钟形曲线,关于均值对称,中位数和众数等于均值。而偏态分布不具有这种对称性。例如,正态分布下,大约68%的数据落在均值加减一个标准差的范围内;对于偏态分布,数据集中在一侧,这种比例关系不成立。
- 参数关系差异:在正态分布中,均值、中位数和众数相等,这三个统计量能够很好地描述分布的中心位置。但在偏态分布中,它们的值通常不相等。在正偏态分布中,众数 < 中位数 < 均值;在负偏态分布中,均值 < 中位数 < 众数。这是因为长尾巴一侧的数据会对均值产生较大的“拉动”作用,而中位数相对更稳健,受极端值影响较小,众数则是数据中出现频率最高的值。
-
产生原因及应用场景
- 产生原因:
- 数据的生成机制可能导致偏态分布。例如,在经济学中,财富的积累往往是一个复利增长的过程,这使得财富分布呈现正偏态。开始时财富较少,但随着时间推移,少数人的财富以指数方式增长,导致右侧尾巴很长。
- 人为因素或选择偏差也可能造成偏态。比如在市场调查中,如果调查的样本主要集中在高消费人群,那么关于消费金额的数据可能会呈现正偏态。
- 应用场景:
- 在金融领域,股票收益率的分布常常是偏态的。了解偏态分布有助于投资者评估风险。正偏态的收益率分布可能意味着有获得高额收益的机会,但同时也伴随着不确定性和风险。
- 在医学研究中,疾病的潜伏期、药物的疗效等数据可能呈现偏态分布。例如,某种药物的治疗效果在大部分患者中可能是中等水平,但在少数患者中可能出现特别好或特别差的情况,这些数据的分布有助于医生和研究人员评估药物的有效性和安全性。
- 产生原因: