第四章.数据的概括性度量

数据的概括性度量

数据分布的特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态

注意:低层次数据的特征适用于高层次数据,但高层次数据的特征不适用于低层次数据

+++

1.集中趋势的度量

集中趋势(central tendency)是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。

1.1分类数据

  • 众数:一组数据中出现次数最多的变量值,用 M 0 M_0 M0表示

众数(mode)主要用于测度分类数据的集中趋势,也可作为顺序数据以及数值型数据集中趋势的测度值。

对于数值型数据来说,

  • 数值型分组数据的众数

M 0 = B + Δ 1 Δ 1 + Δ 2 C M_0 = B + \frac {\Delta_1}{\Delta1+\Delta_2}C M0=B+Δ1+Δ2Δ1C

其中, B B B为众数组(频数最大的组)的组下限, C C C为组距, Δ 1 \Delta_1 Δ1为众数组频数 − - 前一组频数, Δ 2 \Delta_2 Δ2为众数组频数 − - 后一组频数。

  • 数值型未分组数据的众数

出现次数最多的数据值就是众数。

1.2顺序数据

  • 中位数:一组数据排序后处于中间位置上的变量值,用 M e M_e Me表示

中位数(median)将全部数据分成两部分,每部分包含 50 % 50\% 50%的数据,一部分数据比中位数大,一部分数据比中位数小。中位数主要用于测度顺序数据的集中程度,当然也适用于测度数值型数据的集中趋势,但不适用于分类数据。

对于数值型数据来说,

数据一定要先排序!

  • 数值型分组数据的中位数

M e = B + n 2 − S m − 1 f m C M_e = B + \frac {\frac{n}{2}-S_{m-1}}{f_m}C Me=B+fm2nSm1C

其中, B B B为中位数组(数据排序后位于中间位置 n / 2 n/2 n/2的数所在的组,可以通过累积频数来判断所在位置)的组下限, C C C为组距, n n n为样本总数, f m f_m fm为中位数组的频数, S m − 1 S_{m-1} Sm1为中位数组前一组的累积频数。

  • 数值型未分组数据的中位数

M e = { x ( n + 1 2 ) n 为奇数 1 2 ( x ( n 2 ) + x ( n 2 + 1 ) ) n 为偶数 M_e = \begin{cases} x_{(\frac {n+1}{2})} \quad n为奇数 \\ \frac {1}{2}(x_{(\frac {n}{2})} + x_{(\frac {n}{2}+1)}) \quad n为偶数 \end{cases} Me={x(2n+1)n为奇数21(x(2n)+x(2n+1))n为偶数

  • 四分位数:一组数据排序后处于 25 % 25\% 25% 75 % 75\% 75%位置上的值

Q L 位置 = n 4 Q U 位置 = 3 n 4 Q_L位置 = \frac{n}{4} \\ Q_U位置 = \frac{3n}{4} QL位置=4nQU位置=43n

1.3数值型数据

平均数(mean)

  • 简单平均数:对于未分组数据的平均数计算,用 x ˉ \bar{x} xˉ表示

设一组样本数据为 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn,样本量为 n n n(样本数据的个数),则简单样本平均数用 x ˉ \bar{x} xˉ表示
x ˉ = x 1 + x 2 + ⋯ + x n n = ∑ i = 1 n x i n \bar{x} = \frac {x_1+x_2+\cdots+x_n}{n} = \frac {\sum_{i=1}^{n}x_i}{n} xˉ=nx1+x2++xn=ni=1nxi

  • 加权平均数:对于分组数据的平均数计算,用 x ˉ \bar{x} xˉ表示

设原始数据分成 k k k组,各组的组中值分别为 M 1 , M 2 , ⋯   , M k M_1,M_2,\cdots,M_k M1,M2,,Mk表示( 组中值 = 组上限 + 组下限 2 组中值=\frac {组上限+组下限}{2} 组中值=2组上限+组下限 ),各组的频数分别用 f 1 , f 2 , ⋯   , f k f_1,f_2,\cdots,f_k f1,f2,,fk表示,则样本加权平均数的计算公式为:
x ˉ = ∑ i = 1 k M i f i ∑ f i \bar{x} = \frac{\sum_{i=1}^{k}M_if_i}{\sum{f_i}} xˉ=fii=1kMifi

  • 几何平均数: n n n个变量乘积的 n n n次方根,用 G G G表示

主要适用于计算平均比率,例如平均指数、平均增长率等
G = ∏ i = 1 n x i n G = \sqrt[n]{\prod_{i=1}^{n}x_i} G=ni=1nxi

1.4众数、中位数、平均数的比较

2.离散程度的度量

离散程度反映的是各变量值远离中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性久越差;离散程度越小,其代表性就越好。描述数据离散程度的测度值主要有异众比率,四分位差,方差,标准差,极差,平均差,变异系数等。

2.1分类数据

  • 异众比率:指非众数组的频数占总频数的比例,用 V r V_r Vr表示

异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性就越好。
V r = ( 1 − f m ∑ f i ) × 100 % V_r = (1-\frac {f_m}{\sum{f_i}})×100\% Vr=(1fifm)×100%
其中 ∑ f i \sum{f_i} fi为变量值的总频数, f m f_m fm为众数组的频数。

2.2顺序数据

  • 四分位差:上四分位与下四分位数之差,用 Q d Q_d Qd表示

四分位差反映了中间 50 % 50\% 50%的数据的离散程度。四分位差越小,说明中间的数据越集中;四分位差越大,说明中间的数据越分散。四分位差不受极差的影响。
Q d = Q U − Q L Q_d = Q_U-Q_L Qd=QUQL

2.3数值型数据

测度数值型数据离散程度的主要方法有极差、平均差、方差、标准差和变异系数。

  • 极差(range):一组数据最大值与最小值之差,用 R R R表示

对于未分组数值型数据,极差的公式为:
R = m a x ( x i ) − m i n ( x i ) R = max(x_i)-min(x_i) R=max(xi)min(xi)

其中, m a x ( x i ) 和 m i n ( x i ) max(x_i)和min(x_i) max(xi)min(xi)分别表示数据中的最大值和最小值

对于分组数值型数据,极差的公式为:
R = U m a x ( x i ) − U m i n ( x i ) R=Umax(x_i)-Umin(x_i) R=Umax(xi)Umin(xi)
其中 U m a x ( x i ) 和 U m i n ( x i ) Umax(x_i)和Umin(x_i) Umax(xi)Umin(xi)分别表示最大组上限和最大组下限

  • 平均差:各变量值与其平均数离差绝对值的平均数,用 M d M_d Md表示

平均差(mean deviation)以平均数为中心,反映每个数据与平均数的平均差异程度,它能反映一组数据的离散程度。平均差越大,说明数据的离散程度越大;反之,则说明数据的离散程度越小。

对于未分组数值型数据,平均差的公式为:
M d = ∑ i = 1 n ∣ x i − x ˉ ∣ n , x ˉ 为平均数 M_d = \frac {\sum_{i=1}^{n}|x_i-\bar{x}|}{n},\bar{x}为平均数 Md=ni=1nxixˉ,xˉ为平均数
对于分组数值型数据,平均差的公式为:
M d = ∑ i = 1 k ∣ M i − x ˉ ∣ f i n , M i 为组中值 , f i 为组频数 M_d = \frac {\sum_{i=1}^{k}|M_i-\bar{x}|f_i}{n},M_i为组中值,f_i为组频数 Md=ni=1kMixˉfi,Mi为组中值,fi为组频数

  • 方差和标准差
    • 方差:各变量值与其平均数离差平方的平均数
    • 标准差:方差的平方根

这里采用的都是对于样本的样本方差和样本标准差。

自由度(degree of freedom):样本数据个数-1

对于未分组数值型数据,方差和标准差的公式为:
s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 s = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 s^2 = \frac {\sum_{i=1}^{n}{(x_i-\bar{x})^2}}{n-1} \\ s = \sqrt[]{\frac {\sum_{i=1}^{n}{(x_i-\bar{x})^2}}{n-1}} s2=n1i=1n(xixˉ)2s=n1i=1n(xixˉ)2
对于分组数值型数据,方差和标准差的公式为:
s 2 = ∑ i = 1 k ( M i − x ˉ ) 2 f i n − 1 s = ∑ i = 1 k ( M i − x ˉ ) 2 f i n − 1 其中, k 为组数, M i 为组中值, f i 为组频数 s^2 = \frac {\sum_{i=1}^{k} {(M_i-\bar{x})^2f_i}}{n-1} \\ s = \sqrt[]{\frac {\sum_{i=1}^{k} {(M_i-\bar{x})^2f_i}}{n-1}} \\ 其中,k为组数,M_i为组中值,f_i为组频数 s2=n1i=1k(Mixˉ)2fis=n1i=1k(Mixˉ)2fi 其中,k为组数,Mi为组中值,fi为组频数

  • 标准分数(相对位置的度量)

有了平均数和标准差之后,可以计算一组数据中各个数据的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。变量值与其平均数的离差除以标准差后的值称为标准分数,用 z z z表示。

设第 i i i个数据的标准分数为 z i z_i zi,那么标准分数的公式为:
z i = x i − x ˉ s , 其中 s 为标准差 z_i = \frac {x_i-\bar{x}}{s},其中s为标准差 zi=sxixˉ,其中s为标准差
标准分数给出了一组数据中各数据的相对位置。比如,如果某个数据的标准分数为 − 1.5 -1.5 1.5,就知道该数据比平均数低 1.5 1.5 1.5个标准差。

对于相对位置的度量,除了标准分数外,还有经验法则和切比雪夫不等式。

  • 变异系数:一组数据的标准差与其相应的平均数之比,用 v s v_s vs表示

其计算公式为:
v s = s x ˉ v_s = \frac {s}{\bar{x}} vs=xˉs
变异系数是测度数据离散程度的统计量,主要用于比较不同样本数据的离散程度。变异系数大,说明数据的离散程度也大;变异系数小,说明数据的离散程度也小。

3.偏态与峰态的度量

偏态和峰态就是对数据分布形状的测度,主要判断数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。

  • 偏态(skewness)

偏态是对数据分布对称性的测度,测度偏态的统计量是偏态系数(coefficient of skewness),记作 S K SK SK.

如果偏态系数等于0,说明数据的分布是对称的;如果偏态系数明显不等于0,说明数据分布是非对称的。当SK接近0,认为偏斜程度很小;当SK在 0.5   1 或者 − 0.5   − 1 0.5~1或者-0.5~-1 0.5 1或者0.5 1,认为偏斜程度中等;如果SK大于1或者小于-1,认为偏斜程度很大。其中SK大于0说明右偏。SK小于0说明左偏(往哪边偏就是哪边有拖尾)

对于未分组数值型数据,偏态系数的公式为:
S K = n ∑ ( x i − x ˉ ) 3 ( n − 1 ) ( n − 2 ) s 3 , 其中 s 3 为标准差的三次方 SK = \frac {n\sum {(x_i-\bar{x})^3}}{(n-1)(n-2)s^3},其中s^3为标准差的三次方 SK=(n1)(n2)s3n(xixˉ)3,其中s3为标准差的三次方

对于分组数值型数据,偏态系数的公式为:
S K = ∑ i = 1 k ( M i − x ˉ ) 3 f i n s 3 SK = \frac {\sum_{i=1}^{k} {(M_i-\bar{x})^3f_i}}{ns^3} SK=ns3i=1k(Mixˉ)3fi

  • 峰态(kurtosis)

峰态是对数据分布平峰或尖峰程度的测度,测度峰态的统计量是峰态系数(coefficient of kurtosis),记作 K K K

如果峰态系数等于0,说明该分布为正态分布。当K=0,为正态分布;当K>0,为尖峰分布,数据分布更集中;当K<0,为平峰分布,数据分布更分散

对于未分组数值型数据,峰态系数的公式为:
K = n ( n + 1 ) ∑ ( x i − x ˉ ) 4 − 3 [ ∑ ( x i − x ˉ ) 2 ] 2 ( n − 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) s 4 K = \frac {n(n+1) \sum {(x_i-\bar{x})^4 - 3[\sum {(x_i-\bar{x})^2}]^2}(n-1)}{(n-1)(n-2)(n-3)s^4} K=(n1)(n2)(n3)s4n(n+1)(xixˉ)43[(xixˉ)2]2(n1)

对于分组数值型数据,峰态系数的公式为:
K = ∑ i = 1 k ( M i − x ˉ ) 4 f i n s 4 − 3 K = \frac {\sum_{i=1}^{k} {(M_i-\bar{x})^4f_i}}{ns^4} -3 K=ns4i=1k(Mixˉ)4fi3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值