描述统计内容包括:统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
分析数据的主要特征:集中程度、分散程度、数据的分布是正态还是偏态等。多元数据还要分析各个变量之间的相关性等。
单变量数据的数字特征:
- 均值: X ˉ = 1 n ∑ i = 1 n x i \bar{X}=\cfrac 1n\sum_{i=1}^nx_i Xˉ=n1∑i=1nxi 表示数据的集中位置
- 方差: S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 S^2=\cfrac{1}{n-1}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 S2=n−11∑i=1n(xi−xˉ)2 表示数据的分散程度
- 变异系数: C V = 100 × S X ˉ ( % ) CV=100\times\cfrac{S}{\bar{X}}\quad(\%) CV=100×XˉS(%) 表示数据相对分散程度
偏度和峰度是刻画数据偏态、尾重程度的度量,与数据的矩有关系
- K阶原点矩: V k = 1 n ∑ i = 1 n x i k V_k=\cfrac1n\sum_{i=1}^{n}x_i^k Vk=n1∑i=1nxik 一阶原点矩即均值
- K阶中心距: u k = 1 n ∑ i = 1 n ( x i − x ˉ ) k u_k=\cfrac1n\sum_{i=1}^{n}(x_i-\bar{x})^k uk=n1∑i=1n(xi−xˉ)k 二阶中心距即方差
- 偏度: g 1 = n ∑ i = 1 n ( x i − x ˉ ) 3 ( n − 1 ) ( n − 2 ) S 3 = n 2 u 3 ( n − 1 ) ( n − 2 ) S 3 g_{1}=\cfrac{n \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{(n-1)(n-2) S^{3}}=\cfrac{n^{2} u^{3}}{(n-1)(n-2) S^{3}} g1=(n−1)(n−2)S3n∑i=1n(xi−xˉ)3=(n−1)(n−2)S3n2u3 刻画数据对称性。当数据关于均值对称时为0,右偏时大于0,左偏时小于0
- 峰度: g 2 = n ( n + 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) S 4 ∑ i = 1 n ( x i − x ˉ ) 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) g_{2}=\cfrac{n(n+1)}{(n-1)(n-2)(n-3) S^{4}} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}-3 \cfrac{(n-1)^{2}}{(n-2)(n-3)} g2=(n−1)(n−2)(n−3)S4n(n+1)∑i=1n(xi−xˉ)4−3(n−2)(n−3)(n−1)2 刻画数据尾重程度。数据总体为正态分布时为0,两侧极端数据较多时为正,否则为负
p分位数:
M
p
=
{
x
[
n
p
]
+
1
n
p
不
是
整
数
1
2
(
x
n
p
+
x
n
p
+
1
)
n
p
是
整
数
M_p=\begin{cases} x_{[np]+1}&\text np不是整数\\\cfrac12(x_{np}+x_{np+1}) &\text np是整数\end{cases}
Mp=⎩⎨⎧x[np]+121(xnp+xnp+1)np不是整数np是整数
M
1
=
x
(
n
)
M_1=x(n)
M1=x(n)最大值,
M
0
=
x
(
1
)
M_0=x(1)
M0=x(1)最小值,
M
0.5
=
M
M_{0.5}=M
M0.5=M中位数,
M
0.25
=
Q
1
M_{0.25}=Q_1
M0.25=Q1下四分位数,
M
0.75
=
Q
3
M_{0.75}=Q_3
M0.75=Q3上四分位数。
- 四分位数极差: R = Q 3 − Q 1 R=Q_3-Q_1 R=Q3−Q1 度量样本分散性。对于有异常值的数据也具有稳健性
- 下、上截断点: Q 1 − 1.5 R Q_1-1.5R Q1−1.5R, Q 3 + 1.5 R Q_3+1.5R Q3+1.5R,大于上截断点的为特大值,小于下截断点的为特小值,两者均为异常值
- 三均值: M ^ = 1 4 Q + 1 2 M + 1 4 Q 3 \hat{M}=\cfrac14Q+\cfrac12M+\cfrac14Q_3 M^=41Q+21M+41Q3 数据中心位置的数字特征
单变量数据的分布图:
为分析数据总体分布,常绘制直方图、累计分布图(分布函数)、QQ图、箱线图。其中QQ图为对目标累计分布函数值求标准正态分布累计分布函数的逆,若所有点基本上在一条直线上,我们可以说这两个分布是同一分布。
正态性检验是分布拟合检验中最重要的一种,可通过单样本K-S来检验分布是否为正态分布。
多元数据的数字特征与相关分析:
对二元总体
(
X
,
Y
)
(X,Y)
(X,Y),相关系数包括:
- 变量x,y观测数据的协方差: S x y = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) S_{xy}=\cfrac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) Sxy=n−11∑i=1n(xi−xˉ)(yi−yˉ)
- 协方差矩阵: S = [ S x x S x y S y x S y y ] S=\begin{bmatrix} S_{xx}& S_{xy} \\ S_{yx} & S_{yy} \end{bmatrix} S=[SxxSyxSxySyy] (对称阵)
- 相关系数(Pearson相关系数):
r
x
y
=
S
x
y
S
x
x
S
y
y
∣
r
x
y
∣
≤
1
r_{xy}=\cfrac{S_{xy}}{\sqrt{S_{xx}}\sqrt{S_{yy}}}\qquad|r_{xy}|\le1
rxy=SxxSyySxy∣rxy∣≤1
Spearman相关系数要求两个变量的观测值是成对的,每对观测值间相互独立,两个变量的总体来自正态分布,且实验数据间的差距不能相差太大,即该相关系数受到异常值的影响较大。 - 秩相关系数(Spearman相关系数):
ρ
=
1
−
6
∑
i
=
1
n
d
i
2
n
(
n
2
−
1
)
\rho=1-\cfrac{6\sum_{i=1}^nd_i^2}{n(n^2-1)}
ρ=1−n(n2−1)6∑i=1ndi2
“秩”意为顺序,即将变量 X , Y X,Y X,Y的数据进行排序,得到每个变量排序后的位置,对每组 x i , y i x_i,y_i xi,yi的秩相减得到秩次的差值 d i d_i di,Spearman相关系数受异常值的影响很小。
在计算相关系数的同时,会计算样本的显著性水平,即P值。如果不显著,相关系数再高也没用,可能只是因为偶然因素引起的。通常需要p值小于0.1,最好小于0.05甚至0.01,才可得出结论:两组数据有明显关系。如果p=0.5,远大于0.1,只能说明相关程度不明显甚至不相关,起码不是线性相关。