目录
知识结构
内容精读
集中趋势度量
指一组数据向某一中心点靠拢的程度,反映了一组数据中心点的位置所在。低层次数据的集中趋势适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。
众数
一组数据中出现次数最多的变量值,表示。主要针对分类数据,在数据量较大时才有意义。
众数是一个位置代表值,不受极端值的影响,可能不存在,也可能有多个。
中位数
是一组数据中处于中间位置上的变量值,表示。适用于顺序数据与数值数据的集中趋势,不适用于分类数据。计算中位数前先排序
位置=n+1/2
分位数
分位数与中位数相似。中位数是用一个点将数据分为两个部分,对应的将数据分为几个部分就是几分位数。常见的有四分位数、十分位数、百分位数等。
四分位数也称四分位点,是数据排序后处于25%和75%位置上的变量值,两个点分别称为下四分位数QL和上四分位数QU。
QL位置=n/4
QU位置=3n/4
对于取值
整数位置 | 该位置对应值 |
0.5位置 | 两次数据均值 |
0.25或0.75位置上 | 该位置的下册值 |
平均数
也就是均值,是一组数据求和后除以数据个数得到的。主要适用于数值型数据,不适用于分类数据和顺序数据。
简单平均数
加权平均数
其中是各组变量值出现的频数,合值为n。
使用该式计算平均数的前提是数据在组内是均匀分布的。
几何平均数
常用于计算平均增长率。
当数据呈对称分布式众数=中位数=平均数。极端值对平均数影响较大,因此偏态分布中应选择众数或者中位数作为代表。
离散程度度量
异众比率
指非众数组的频数占总频数的比例。
用来衡量众数的代表程度。异众比率越大,说明非众数组的占比越大,众数的代表性就越差。适合对分类数据测度离散程度,当然顺序数据与数值型数据也可以计算。
四分位差
也称内距或四分间距,即上四分位数与下四分位数之差。
不适合分类数据。
极差
一组数据最大值与最小值之差,也叫全距。
平均差
也称平均绝对离差,各变量值与其平均数离差绝对值的平均数。
对于分组数据
平均差越大,数据离散程度越大。
方差与标准差
方差是各变量值与其平均数离差平方的平均数。方差的平方根为标准差。
未分组数据:
分组数据:
方差没有量纲标准差是有量纲的。有了平均数与标准差后就引出了标准分数,也就是我们常说的数据标准化。
离散系数
也称变异系数,是一组数据标准差与其相应的平均数之比。
主要用于比较不同样本数据的离散程度。离散系数大,数据的离散程度也大;离散系数小,数据的离散程度也小。
分布形式
偏态系数
未分组数据
分组数据
偏态系数 | 偏斜程度 |
0 | 对称 |
>1或<-1 | 高度 |
0.5~1或-1~-0.5 | 中等 |
SK越接近于0,偏斜程度越小。
峰态系数
是相对正太分布而言的。服从标准正态分布的数据峰态系数为0.
未分组
分组
K=0 | 正态分布 |
K>0 | 尖峰分布 |
K<0 | 扁平分布 |
名词解释
集中趋势
集中趋势:集中趋势又称“数据的中心位置”、“集中量数”等。它是一组数据的代表值。集中趋势的概念就是平均数的概念,它对总体的某一特征具有代表性,表明所研究的理论现象在一定时间、空间条件下的共同性质和一般水平。
数据的离散程度
数据的离散程度是数据分布的另一个特征,它反应的是各变量值远离其中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差;离散程度越小,其代表性越好。