数据的概括性度量
数据分布的特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态
注意:低层次数据的特征适用于高层次数据,但高层次数据的特征不适用于低层次数据
+++
1.集中趋势的度量
集中趋势(central tendency)是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
1.1分类数据
- 众数:一组数据中出现次数最多的变量值,用 M 0 M_0 M0表示
众数(mode)主要用于测度分类数据的集中趋势,也可作为顺序数据以及数值型数据集中趋势的测度值。
对于数值型数据来说,
- 数值型分组数据的众数
M 0 = B + Δ 1 Δ 1 + Δ 2 C M_0 = B + \frac {\Delta_1}{\Delta1+\Delta_2}C M0=B+Δ1+Δ2Δ1C
其中, B B B为众数组(频数最大的组)的组下限, C C C为组距, Δ 1 \Delta_1 Δ1为众数组频数 − - −前一组频数, Δ 2 \Delta_2 Δ2为众数组频数 − - −后一组频数。
- 数值型未分组数据的众数
出现次数最多的数据值就是众数。
1.2顺序数据
- 中位数:一组数据排序后处于中间位置上的变量值,用 M e M_e Me表示
中位数(median)将全部数据分成两部分,每部分包含 50 % 50\% 50%的数据,一部分数据比中位数大,一部分数据比中位数小。中位数主要用于测度顺序数据的集中程度,当然也适用于测度数值型数据的集中趋势,但不适用于分类数据。
对于数值型数据来说,
数据一定要先排序!
- 数值型分组数据的中位数
M e = B + n 2 − S m − 1 f m C M_e = B + \frac {\frac{n}{2}-S_{m-1}}{f_m}C Me=B+fm2n−Sm−1C
其中, B B B为中位数组(数据排序后位于中间位置 n / 2 n/2 n/2的数所在的组,可以通过累积频数来判断所在位置)的组下限, C C C为组距, n n n为样本总数, f m f_m fm为中位数组的频数, S m − 1 S_{m-1} Sm−1为中位数组前一组的累积频数。
- 数值型未分组数据的中位数
M e = { x ( n + 1 2 ) n 为奇数 1 2 ( x ( n 2 ) + x ( n 2 + 1 ) ) n 为偶数 M_e = \begin{cases} x_{(\frac {n+1}{2})} \quad n为奇数 \\ \frac {1}{2}(x_{(\frac {n}{2})} + x_{(\frac {n}{2}+1)}) \quad n为偶数 \end{cases} Me={x(2n+1)n为奇数21(x(2n)+x(2n+1))n为偶数
- 四分位数:一组数据排序后处于 25 % 25\% 25%和 75 % 75\% 75%位置上的值
Q L 位置 = n 4 Q U 位置 = 3 n 4 Q_L位置 = \frac{n}{4} \\ Q_U位置 = \frac{3n}{4} QL位置=4nQU位置=43n
1.3数值型数据
平均数(mean)
- 简单平均数:对于未分组数据的平均数计算,用 x ˉ \bar{x} xˉ表示
设一组样本数据为
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn,样本量为
n
n
n(样本数据的个数),则简单样本平均数用
x
ˉ
\bar{x}
xˉ表示
x
ˉ
=
x
1
+
x
2
+
⋯
+
x
n
n
=
∑
i
=
1
n
x
i
n
\bar{x} = \frac {x_1+x_2+\cdots+x_n}{n} = \frac {\sum_{i=1}^{n}x_i}{n}
xˉ=nx1+x2+⋯+xn=n∑i=1nxi
- 加权平均数:对于分组数据的平均数计算,用 x ˉ \bar{x} xˉ表示
设原始数据分成
k
k
k组,各组的组中值分别为
M
1
,
M
2
,
⋯
,
M
k
M_1,M_2,\cdots,M_k
M1,M2,⋯,Mk表示(
组中值
=
组上限
+
组下限
2
组中值=\frac {组上限+组下限}{2}
组中值=2组上限+组下限 ),各组的频数分别用
f
1
,
f
2
,
⋯
,
f
k
f_1,f_2,\cdots,f_k
f1,f2,⋯,fk表示,则样本加权平均数的计算公式为:
x
ˉ
=
∑
i
=
1
k
M
i
f
i
∑
f
i
\bar{x} = \frac{\sum_{i=1}^{k}M_if_i}{\sum{f_i}}
xˉ=∑fi∑i=1kMifi
- 几何平均数: n n n个变量乘积的 n n n次方根,用 G G G表示
主要适用于计算平均比率,例如平均指数、平均增长率等
G
=
∏
i
=
1
n
x
i
n
G = \sqrt[n]{\prod_{i=1}^{n}x_i}
G=ni=1∏nxi
1.4众数、中位数、平均数的比较
2.离散程度的度量
离散程度反映的是各变量值远离中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性久越差;离散程度越小,其代表性就越好。描述数据离散程度的测度值主要有异众比率,四分位差,方差,标准差,极差,平均差,变异系数等。
2.1分类数据
- 异众比率:指非众数组的频数占总频数的比例,用 V r V_r Vr表示
异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性就越好。
V
r
=
(
1
−
f
m
∑
f
i
)
×
100
%
V_r = (1-\frac {f_m}{\sum{f_i}})×100\%
Vr=(1−∑fifm)×100%
其中
∑
f
i
\sum{f_i}
∑fi为变量值的总频数,
f
m
f_m
fm为众数组的频数。
2.2顺序数据
- 四分位差:上四分位与下四分位数之差,用 Q d Q_d Qd表示
四分位差反映了中间
50
%
50\%
50%的数据的离散程度。四分位差越小,说明中间的数据越集中;四分位差越大,说明中间的数据越分散。四分位差不受极差的影响。
Q
d
=
Q
U
−
Q
L
Q_d = Q_U-Q_L
Qd=QU−QL
2.3数值型数据
测度数值型数据离散程度的主要方法有极差、平均差、方差、标准差和变异系数。
- 极差(range):一组数据最大值与最小值之差,用 R R R表示
对于未分组数值型数据,极差的公式为:
R
=
m
a
x
(
x
i
)
−
m
i
n
(
x
i
)
R = max(x_i)-min(x_i)
R=max(xi)−min(xi)
其中, m a x ( x i ) 和 m i n ( x i ) max(x_i)和min(x_i) max(xi)和min(xi)分别表示数据中的最大值和最小值
对于分组数值型数据,极差的公式为:
R
=
U
m
a
x
(
x
i
)
−
U
m
i
n
(
x
i
)
R=Umax(x_i)-Umin(x_i)
R=Umax(xi)−Umin(xi)
其中
U
m
a
x
(
x
i
)
和
U
m
i
n
(
x
i
)
Umax(x_i)和Umin(x_i)
Umax(xi)和Umin(xi)分别表示最大组上限和最大组下限
- 平均差:各变量值与其平均数离差绝对值的平均数,用 M d M_d Md表示
平均差(mean deviation)以平均数为中心,反映每个数据与平均数的平均差异程度,它能反映一组数据的离散程度。平均差越大,说明数据的离散程度越大;反之,则说明数据的离散程度越小。
对于未分组数值型数据,平均差的公式为:
M
d
=
∑
i
=
1
n
∣
x
i
−
x
ˉ
∣
n
,
x
ˉ
为平均数
M_d = \frac {\sum_{i=1}^{n}|x_i-\bar{x}|}{n},\bar{x}为平均数
Md=n∑i=1n∣xi−xˉ∣,xˉ为平均数
对于分组数值型数据,平均差的公式为:
M
d
=
∑
i
=
1
k
∣
M
i
−
x
ˉ
∣
f
i
n
,
M
i
为组中值
,
f
i
为组频数
M_d = \frac {\sum_{i=1}^{k}|M_i-\bar{x}|f_i}{n},M_i为组中值,f_i为组频数
Md=n∑i=1k∣Mi−xˉ∣fi,Mi为组中值,fi为组频数
- 方差和标准差
- 方差:各变量值与其平均数离差平方的平均数
- 标准差:方差的平方根
这里采用的都是对于样本的样本方差和样本标准差。
自由度(degree of freedom):样本数据个数-1
对于未分组数值型数据,方差和标准差的公式为:
s
2
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
n
−
1
s
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
n
−
1
s^2 = \frac {\sum_{i=1}^{n}{(x_i-\bar{x})^2}}{n-1} \\ s = \sqrt[]{\frac {\sum_{i=1}^{n}{(x_i-\bar{x})^2}}{n-1}}
s2=n−1∑i=1n(xi−xˉ)2s=n−1∑i=1n(xi−xˉ)2
对于分组数值型数据,方差和标准差的公式为:
s
2
=
∑
i
=
1
k
(
M
i
−
x
ˉ
)
2
f
i
n
−
1
s
=
∑
i
=
1
k
(
M
i
−
x
ˉ
)
2
f
i
n
−
1
其中,
k
为组数,
M
i
为组中值,
f
i
为组频数
s^2 = \frac {\sum_{i=1}^{k} {(M_i-\bar{x})^2f_i}}{n-1} \\ s = \sqrt[]{\frac {\sum_{i=1}^{k} {(M_i-\bar{x})^2f_i}}{n-1}} \\ 其中,k为组数,M_i为组中值,f_i为组频数
s2=n−1∑i=1k(Mi−xˉ)2fis=n−1∑i=1k(Mi−xˉ)2fi其中,k为组数,Mi为组中值,fi为组频数
- 标准分数(相对位置的度量)
有了平均数和标准差之后,可以计算一组数据中各个数据的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。变量值与其平均数的离差除以标准差后的值称为标准分数,用 z z z表示。
设第
i
i
i个数据的标准分数为
z
i
z_i
zi,那么标准分数的公式为:
z
i
=
x
i
−
x
ˉ
s
,
其中
s
为标准差
z_i = \frac {x_i-\bar{x}}{s},其中s为标准差
zi=sxi−xˉ,其中s为标准差
标准分数给出了一组数据中各数据的相对位置。比如,如果某个数据的标准分数为
−
1.5
-1.5
−1.5,就知道该数据比平均数低
1.5
1.5
1.5个标准差。
对于相对位置的度量,除了标准分数外,还有经验法则和切比雪夫不等式。
- 变异系数:一组数据的标准差与其相应的平均数之比,用 v s v_s vs表示
其计算公式为:
v
s
=
s
x
ˉ
v_s = \frac {s}{\bar{x}}
vs=xˉs
变异系数是测度数据离散程度的统计量,主要用于比较不同样本数据的离散程度。变异系数大,说明数据的离散程度也大;变异系数小,说明数据的离散程度也小。
3.偏态与峰态的度量
偏态和峰态就是对数据分布形状的测度,主要判断数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。
- 偏态(skewness)
偏态是对数据分布对称性的测度,测度偏态的统计量是偏态系数(coefficient of skewness),记作 S K SK SK.
如果偏态系数等于0,说明数据的分布是对称的;如果偏态系数明显不等于0,说明数据分布是非对称的。当SK接近0,认为偏斜程度很小;当SK在 0.5 1 或者 − 0.5 − 1 0.5~1或者-0.5~-1 0.5 1或者−0.5 −1,认为偏斜程度中等;如果SK大于1或者小于-1,认为偏斜程度很大。其中SK大于0说明右偏。SK小于0说明左偏(往哪边偏就是哪边有拖尾)
对于未分组数值型数据,偏态系数的公式为:
S
K
=
n
∑
(
x
i
−
x
ˉ
)
3
(
n
−
1
)
(
n
−
2
)
s
3
,
其中
s
3
为标准差的三次方
SK = \frac {n\sum {(x_i-\bar{x})^3}}{(n-1)(n-2)s^3},其中s^3为标准差的三次方
SK=(n−1)(n−2)s3n∑(xi−xˉ)3,其中s3为标准差的三次方
对于分组数值型数据,偏态系数的公式为:
S
K
=
∑
i
=
1
k
(
M
i
−
x
ˉ
)
3
f
i
n
s
3
SK = \frac {\sum_{i=1}^{k} {(M_i-\bar{x})^3f_i}}{ns^3}
SK=ns3∑i=1k(Mi−xˉ)3fi
- 峰态(kurtosis)
峰态是对数据分布平峰或尖峰程度的测度,测度峰态的统计量是峰态系数(coefficient of kurtosis),记作 K K K。
如果峰态系数等于0,说明该分布为正态分布。当K=0,为正态分布;当K>0,为尖峰分布,数据分布更集中;当K<0,为平峰分布,数据分布更分散
对于未分组数值型数据,峰态系数的公式为:
K
=
n
(
n
+
1
)
∑
(
x
i
−
x
ˉ
)
4
−
3
[
∑
(
x
i
−
x
ˉ
)
2
]
2
(
n
−
1
)
(
n
−
1
)
(
n
−
2
)
(
n
−
3
)
s
4
K = \frac {n(n+1) \sum {(x_i-\bar{x})^4 - 3[\sum {(x_i-\bar{x})^2}]^2}(n-1)}{(n-1)(n-2)(n-3)s^4}
K=(n−1)(n−2)(n−3)s4n(n+1)∑(xi−xˉ)4−3[∑(xi−xˉ)2]2(n−1)
对于分组数值型数据,峰态系数的公式为:
K
=
∑
i
=
1
k
(
M
i
−
x
ˉ
)
4
f
i
n
s
4
−
3
K = \frac {\sum_{i=1}^{k} {(M_i-\bar{x})^4f_i}}{ns^4} -3
K=ns4∑i=1k(Mi−xˉ)4fi−3