文章目录
单变量描述性统计指标
单变量分析的目的是,通过对数据的整理、加工、组织和展示,并计算反应数据的集中趋势和离散程度的指标,对变量分布的特征和规律进行刻画和描述。用最简单的概括形式反映出大量数据资料所容纳的基本信息。
主要分为三个方面:
1、确定频率分布和频数分布
2、集中趋势分析,就是用一个代表值或典型值对一组数据的一般水平进行反映,或是对这组数据向这个代表值或典型值集中的情况进行反映。由于集中趋势分析对大量数据的共性进行了科学抽象,能够对被研究对象在具体条件下的一般水平进行说明,因而在单变量描述统计中的应用非常广泛。
3、离散趋势分析是指用一个特别的数值将一组数据相互之间的离散程度反映出来。
最大值(max):一组变量中最大的一个值。
最小值(min):一组变量中最小的一个值。
集中趋势
均值:
1、算术平均数(arithmetic mean):一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。把n个数的总和除以n,所得的商叫做这n个数的算数平均数。
x
1
+
x
2
+
⋯
+
x
n
n
\frac{x_{1} + x_{2} +\cdots+x_{n}}{n}
nx1+x2+⋯+xn
2、几何平均数(geometric mean):n个数连乘积的n次方根。
x
1
+
x
2
+
⋯
+
x
n
n
\sqrt[n]{x_{1} + x_{2}+\cdots+x_{n}}
nx1+x2+⋯+xn
3、调和平均数(harmonic mean):主要用来解决在无法掌握总体单位数(频数)的情况下,只有每组的变量值和相应的标志总量,而需要求得平均数的情况下使用的一种数据方法。
n
1
x
1
+
1
x
2
+
⋯
+
1
x
n
\frac{n}{\frac{1}{x_{1}}+\frac{1}{x_{2}}+\cdots+\frac{1}{x_{n}}}
x11+x21+⋯+xn1n
4、加权平均数(weighted average):不同比重数据的平均数。
ω
1
x
1
+
ω
2
x
2
+
⋯
+
ω
n
x
n
ω
1
+
ω
2
+
⋯
+
ω
n
\frac{\omega_{1}x_{1}+\omega_{2}x_{2}+\cdots+\omega_{n}x_{n}}{\omega_{1}+\omega_{2}+\cdots+\omega_{n}}
ω1+ω2+⋯+ωnω1x1+ω2x2+⋯+ωnxn
众数(mode):一组数据中出现次数最多的数值。
中位数(median):顺序排列的一组数据中居于中间位置的数。
平均数、中位数和众数都是来刻画数据平均水平的统计量,它们各有特点。中位数刻画了一组数据的中等水平,众数刻画了一组数据中出现次数最多的情况。平均数能够利用所有数据的特征,是使得误差平方和达到最小的统计量,不足之处,正是因为它利用了所有数据的信息,平均数容易受极端数据的影响。
分位数(quantile):一个随机变量的概率分布范围分为几个等份的数值点。常用的有中位数、四分位数、百分位数等。
离散趋势
方差(variance)、标准差(均方差standard deviation):
方差用来计算每一个变量与总体均数之间的差异。标准差为方差的平方根。方差不仅仅表达了样本偏离均值的程度,更是揭示了样本内部彼此波动的程度。
异众比率(variation ration):
总体中非总数次数与总体全部次数之比,也就是非众数组的频数占总频数的比例。测度分类数据的离散程度。
∑
f
i
\sum{f_{i}}
∑fi 为变量组的总频数,也就是总个数;
f
m
f_{m}
fm为众数组的频数。
∑
f
i
−
f
m
∑
f
i
\frac{\sum{f_{i}-f_{m}}}{\sum{f_{i}}}
∑fi∑fi−fm
四分位差(quartile deviation):
上四分位数与下四分位数之差。反映了中间50%数据的离散程度。不受两端各25%数值的影响,能对开口组(组距分组中,第一组和最后一组采取“xx以下”和“xx以上”来分组)数列的差异程度进行测度,可以衡量中位数代表性高低。缺点不能反映所有标志值的差异程度。
极差(全距 range):
最大值减去最小值,测定标志变动的最简单的指标。
变异系数(离散系数 coefficient of variation):
标准差与平均值之比。比起标准差不需要参照数据的平均值,是一个无量纲量。缺点是当平均值很小的时候会受很大的影响。
延伸
矩(moment)
设
X
X
X为随机变量,
c
c
c为常数,
k
k
k为正整数,则量
E
[
(
X
−
c
)
k
]
E[(X-c)^{k}]
E[(X−c)k]称为
X
X
X关于
c
c
c点的
k
k
k阶矩。
c
=
0
c=0
c=0时为原点矩,
c
=
E
X
c=EX
c=EX是为中心距。
在数学和统计学中,矩是对变量分布和形态特点的一组度量。
n
n
n阶矩被定义为一变量的
n
n
n次方与其概率密度函数之积的积分。直接使用变量计算的矩被称为原始矩(raw moment),移除均值后计算的矩被称为中心矩(central moment)。变量的一阶原始矩等价于数学期望(expectation)、二至四阶中心矩被定义为方差(variance)、偏度(skewness)和峰度(kurtosis)。