什么是统计量?
设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是来自总体 X X X的一个样本, g ( X 1 , X 2 , ⋯ , X n ) g(X_1,X_2,\cdots,X_n) g(X1,X2,⋯,Xn)是 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn的函数,若 g g g中不含未知参数,则称 g ( X 1 , X 2 , ⋯ , X n ) g(X_1,X_2,\cdots,X_n) g(X1,X2,⋯,Xn)是一个统计量
常见统计量
统计量 | 定义 | R代码 | 总体数字特征 | 定义 |
---|---|---|---|---|
样本均值 | X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i X=n1∑i=1nXi | m e a n ( x , t r i m , n a . r m = F A L S E ) mean(x,trim,na.rm=FALSE) mean(x,trim,na.rm=FALSE) | 总体期望 | x ‾ = 1 n ∑ i = 1 n x i \overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_i x=n1∑i=1nxi |
样本方差 | S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2 S2=n−11∑i=1n(Xi−X)2 | v a r ( x , y = N U L L , n a . r m = F A L S E , u s e ) var(x,y=NULL,na.rm=FALSE,use) var(x,y=NULL,na.rm=FALSE,use) | 总体方差 | s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2 s2=n−11∑i=1n(xi−x)2 |
样本标准差 | S = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2} S=n−11∑i=1n(Xi−X)2 | s d ( x , n a . r m = F A L S E ) sd(x,na.rm=FALSE) sd(x,na.rm=FALSE) | 标准差 | s = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2} s=n−11∑i=1n(xi−x)2 |
样本 k k k阶矩 | A k = 1 n ∑ i = 1 n X i k , k = 1 , 2 , ⋯ A_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k,k=1,2,\cdots Ak=n1∑i=1nXik,k=1,2,⋯ | A K < − s u m ( X AK<-sum(X AK<−sum(X^ k ) / l e n g t h ( x ) k)/length(x) k)/length(x) | 总体 k k k阶矩 | a k = 1 n ∑ i = 1 n x i k , k = 1 , 2 , ⋯ a_k=\frac{1}{n}\sum_{i=1}^{n}x_i^k,k=1,2,\cdots ak=n1∑i=1nxik,k=1,2,⋯ |
样本 k k k阶中心矩 | B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k , k = 2 , 3 , ⋯ B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k,k=2,3,\cdots Bk=n1∑i=1n(Xi−X)k,k=2,3,⋯ | m < − m e a n ( x ) B K < − s u m ( ( x − m ) k / ( l e n g t h ( x ) m<-mean(x)\\BK<-sum((x-m)^k/(length(x) m<−mean(x)BK<−sum((x−m)k/(length(x) | 总体 k k k阶中心矩 | b k = 1 n ∑ i = 1 n ( x i − x ‾ ) k , k = 2 , 3 , ⋯ b_k=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^k,k=2,3,\cdots bk=n1∑i=1n(xi−x)k,k=2,3,⋯ |
样本偏度 |
g
=
m
3
/
m
2
(
3
/
2
)
g = m_3/m_2^{(3/2)}
g=m3/m2(3/2) m 2 = 1 n ∑ i ( x i − μ ) 2 m_2 = \frac{1}{n}\sum_i(x_i-\mu)^2 m2=n1∑i(xi−μ)2 m 3 = 1 n ∑ i ( x i − μ ) 3 m_3=\frac{1}{n}\sum_i(x_i-\mu)^3 m3=n1∑i(xi−μ)3 |
s
k
e
w
n
e
s
s
(
x
)
#
skewness(x) \#
skewness(x)# 偏度系数 a g o s t i n o . t e s t ( x ) # agostino.test(x) \# agostino.test(x)# 偏度的检验 | 总体偏度 | |
样本峰度 |
k
u
r
t
o
s
i
s
(
x
)
#
kurtosis(x) \#
kurtosis(x)# 计算峰度 a n s c o m b e . t e s t ( x ) # anscombe.test(x) \# anscombe.test(x)# 峰度检验 | 总体峰度 |
样本矩与总体矩的关系:若总体 X X X的 k k k阶矩 E ( X k ) E(X^k) E(Xk)记成 μ k \mu_k μk存在,当 n → ∞ n \rightarrow \infty n→∞时, A k → p μ k A_k \stackrel{\mathrm{p}}{\rightarrow}{\mu_k} Ak→pμk
经验分布函数,格里汶科定理及定理含义
总体分布函数 F ( x ) F(x) F(x)相应的统计量称为经验分布函数
设
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn是总体
F
F
F的一个样本,用
S
(
x
)
(
−
∞
<
x
<
+
∞
)
S(x)(-\infty < x < +\infty)
S(x)(−∞<x<+∞)表示
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn中不大于
x
x
x的随机变量的个数,定义经验分布函数
F
n
(
x
)
为
F_n(x)为
Fn(x)为
F
n
(
x
)
=
1
n
S
(
x
)
,
−
∞
<
x
<
+
∞
F_n(x)=\frac{1}{n}S(x), -\infty < x < +\infty
Fn(x)=n1S(x),−∞<x<+∞
格里汶科定理
对于任一实数
x
x
x,当
n
→
∞
n \rightarrow \infty
n→∞时,
F
n
(
x
)
F_n(x)
Fn(x)以概率为
1
1
1一致收敛于分布函数
F
(
x
)
F(x)
F(x),即
p
{
lim
n
→
∞
sup
−
∞
<
x
<
+
∞
∣
F
n
(
x
)
−
F
(
x
)
∣
=
0
}
=
1
a
l
h
p
a
p\{\lim_{n \rightarrow \infty} \sup_{-\infty < x < +\infty} |F_n(x)-F(x)|=0\}=1alhpa
p{n→∞lim−∞<x<+∞sup∣Fn(x)−F(x)∣=0}=1alhpa
三种常见抽样分布
分布 | 构成方式 | 性质 | 概率密度函数 |
---|---|---|---|
卡方分布 | χ 2 = X 1 2 + X 2 2 + ⋯ + X n 2 \chi^2 = X_1^2+X_2^2+\cdots+X_n^2 χ2=X12+X22+⋯+Xn2 |
χ
1
2
+
χ
2
2
\chi_1^2+\chi_2^2
χ12+χ22~
χ
2
(
n
1
+
n
2
)
\chi^2(n_1+n_2)
χ2(n1+n2) χ 2 \chi^2 χ2~ χ 2 ( n ) \chi^2(n) χ2(n) E ( χ 2 ) = n , D ( χ 2 ) = 2 n E(\chi^2)=n,D(\chi^2)=2n E(χ2)=n,D(χ2)=2n | P { χ 2 > χ α 2 ( n ) } = ∫ χ α 2 ( n ) ∞ f ( y ) d y = α P\{\chi^2>\chi^2_{\alpha}(n)\}=\int^{\infty}_{\chi_{\alpha}^{2}(n)}f(y)dy=\alpha P{χ2>χα2(n)}=∫χα2(n)∞f(y)dy=α |
t t t分布 | t = X Y / n t=\frac{X}{\sqrt{Y/n}} t=Y/nX | lim n → ∞ h ( t ) = 1 2 π e − t 2 2 \lim_{n \rightarrow \infty}h(t)=\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}} limn→∞h(t)=2π1e−2t2 | h ( t ) = Γ ( n + 1 2 ) π n Γ ( n 2 ) ( 1 + t 2 n ) − n + 1 2 , − ∞ < t < + ∞ h(t)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{\pi n} \Gamma(\frac{n}{2})}(1+\frac{t^2}{n})^{-\frac{n+1}{2}},-\infty < t < +\infty h(t)=πnΓ(2n)Γ(2n+1)(1+nt2)−2n+1,−∞<t<+∞ |
F F F分布 |
U
U
U~
χ
2
(
n
1
)
\chi^2(n_1)
χ2(n1) V V V~ χ 2 ( n 2 ) \chi^2(n_2) χ2(n2)且 U , V U,V U,V独立 F = U / n 1 V / n 2 F=\frac{U/n_1}{V/n_2} F=V/n2U/n1 |
F
F
F~
F
(
n
1
,
n
2
)
F(n_1,n_2)
F(n1,n2) 1 F \frac{1}{F} F1~ F ( n 2 , n 1 ) F(n_2,n_1) F(n2,n1) |
正态总体的样本均值和样本方差的分布
设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的样本, X ‾ , S 2 \overline{X},S^2 X,S2是样本均值和样本方差,则有
1、 ( n − 1 ) S 2 σ 2 \frac{(n-1)S^2}{\sigma^2} σ2(n−1)S2~ χ 2 ( n − 1 ) \chi^2(n-1) χ2(n−1)
2、 X ‾ \overline{X} X与 S 2 S^2 S2独立
3、 X ‾ − μ S / n \frac{\overline{X}-\mu}{S/\sqrt{n}} S/nX−μ~ t ( n − 1 ) t(n-1) t(n−1)