统计学4——数据的概括性度量

目录

知识结构

内容精读

集中趋势度量

离散程度度量

分布形式

名词解释


知识结构


内容精读

集中趋势度量

指一组数据向某一中心点靠拢的程度,反映了一组数据中心点的位置所在。低层次数据的集中趋势适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。

众数

一组数据中出现次数最多的变量值,M_{0}表示。主要针对分类数据,在数据量较大时才有意义。

众数是一个位置代表值,不受极端值的影响,可能不存在,也可能有多个。

中位数

是一组数据中处于中间位置上的变量值,M_{e}表示。适用于顺序数据与数值数据的集中趋势,不适用于分类数据。计算中位数前先排序

位置=n+1/2

M_{e}={\left\{\begin{matrix} x_{(\frac{n+1}{2})}\\ \frac{1}{2} (x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}) \end{matrix}\right.}{}

分位数

分位数与中位数相似。中位数是用一个点将数据分为两个部分,对应的将数据分为几个部分就是几分位数。常见的有四分位数、十分位数、百分位数等。

四分位数也称四分位点,是数据排序后处于25%和75%位置上的变量值,两个点分别称为下四分位数QL和上四分位数QU

QL位置=n/4

QU位置=3n/4

对于取值

整数位置

该位置对应值

0.5位置

两次数据均值

0.25或0.75位置上

该位置的下册值

平均数

也就是均值,是一组数据求和后除以数据个数得到的。主要适用于数值型数据,不适用于分类数据和顺序数据。

简单平均数

\bar{x}=\frac{x_{1}+x_{2}+.....+x_{n}}{n}

加权平均数

\bar{x}=\frac{M_{1}f_{1}+M_{2}f_{2}+.....+m_{n}f_{n}}{f_{1}+f_{2}+...+f_{k}}

其中f_{i}是各组变量值出现的频数,合值为n。
使用该式计算平均数的前提是数据在组内是均匀分布的。

几何平均数

G=\sqrt[n]{x_{1}*x_{2}*...*x_{n}}

常用于计算平均增长率。

当数据呈对称分布式众数=中位数=平均数。极端值对平均数影响较大,因此偏态分布中应选择众数或者中位数作为代表。

离散程度度量

异众比率

指非众数组的频数占总频数的比例。

V_{r}=\frac{\sum_{}f_{i}-f_{m}}{\sum_{}f_{i}}

用来衡量众数的代表程度。异众比率越大,说明非众数组的占比越大,众数的代表性就越差。适合对分类数据测度离散程度,当然顺序数据与数值型数据也可以计算。

四分位差

也称内距或四分间距,即上四分位数与下四分位数之差。

Q_{d}=Q_{U}-Q_{L}

不适合分类数据。

极差

一组数据最大值与最小值之差,也叫全距。

R=max(x_{i})-min(x_{i})

平均差

也称平均绝对离差,各变量值与其平均数离差绝对值的平均数。

M_{d}=\frac{\sum_{i=1}^{n}\left |x_{i}-\bar{x}\right |}{n}

对于分组数据

M_{d}=\frac{\sum_{i=1}^{n}\left |M_{i}-\bar{x}\right |f_{i}}{n}

平均差越大,数据离散程度越大。

方差与标准差

方差是各变量值与其平均数离差平方的平均数。方差的平方根为标准差。

未分组数据:

s^{2}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}{n-1}

分组数据:

S^{2}=\frac{\sum_{i=1}^{n}(M_{i}-\bar{x})^{2}f_{i}}{n-1}

方差没有量纲标准差是有量纲的。有了平均数与标准差后就引出了标准分数,也就是我们常说的数据标准化。

z_{i}=\frac{x_{i}-\bar{x}}{s}

离散系数

也称变异系数,是一组数据标准差与其相应的平均数之比。

v_{s}=\frac{s}{\bar{x}}

主要用于比较不同样本数据的离散程度。离散系数大,数据的离散程度也大;离散系数小,数据的离散程度也小。

分布形式

偏态系数

未分组数据

SK=\frac{n\sum{(x_{i}-\bar{x})^3}}{(n-1)(n-2)s^3}

分组数据

SK=\frac{\sum_{i=1}^{n}(M_{i}-\bar{x})^{3}f_{i}}{ns^3}

偏态系数偏斜程度
0对称
>1或<-1高度
0.5~1或-1~-0.5中等

SK越接近于0,偏斜程度越小。

峰态系数

是相对正太分布而言的。服从标准正态分布的数据峰态系数为0.

未分组

K=\frac{n(n-1)\sum(x_{i}-\bar{x})^{4}-3[\sum{(x_{i}-\bar{x})^2}]^2(n-1)}{(n-1)(n-2)(n-3)s^4}

分组

K=\frac{\sum_{i=1}^{k}(M_{i}-\bar{x})^{4}f_{i}}{ns^4}-3

K=0正态分布
K>0尖峰分布
K<0扁平分布

名词解释

集中趋势

集中趋势:集中趋势又称“数据的中心位置”、“集中量数”等。它是一组数据的代表值。集中趋势的概念就是平均数的概念,它对总体的某一特征具有代表性,表明所研究的理论现象在一定时间、空间条件下的共同性质和一般水平。

数据的离散程度

数据的离散程度是数据分布的另一个特征,它反应的是各变量值远离其中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差;离散程度越小,其代表性越好。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值