19.数理统计备考(1)

备考篇(1)

第一章

本章是数理统计中的基本知识和基础概念,包含样本、统计量、样本分布、经验分布函数等基本内容。

样本是从总体中抽取的一部分个体,具有两重性。当样本作为随机变量看待时,拥有和总体一样的分布函数,同时样本也有联合分布函数,其联合密度函数或联合密度函数为
f ( x 1 , ⋯   , x n ) = f ( x 1 ) f ( x 2 ) ⋯ f ( x n ) f(x_1,\cdots,x_n)=f(x_1)f(x_2)\cdots f(x_n) f(x1,,xn)=f(x1)f(x2)f(xn)
统计量是样本的函数,是根据样本可以直接算出的值。常用的统计量有样本均值、样本方差、经验分布函数、样本偏度与样本峰度、样本矩等。其中样本均值和样本方差最为常用,为
X ˉ = 1 n ∑ i = 1 n X i , S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 \bar X=\frac1n\sum_{i=1}^nX_i, S^2=\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2 Xˉ=n1i=1nXi,S2=n11i=1n(XiXˉ)2
其他的统计量大多可以由总体数字特征直接置换样本矩得到。样本矩分为样本原点矩和中心矩,分别是
a n , k = 1 n ∑ i = 1 n X i k , m n , k = 1 n ∑ i = 1 n ( X i − X ˉ ) k a_{n,k}=\frac1n\sum_{i=1}^nX_i^k, m_{n,k}=\frac1n\sum_{i=1}^n (X_i-\bar X)^k an,k=n1i=1nXik,mn,k=n1i=1n(XiXˉ)k
特别地,记 X ˉ = a n , 1 , S n 2 = m n , 2 = ( n − 1 ) S 2 / n \bar X=a_{n,1},S_n^2=m_{n,2}=(n-1) S^2/n Xˉ=an,1,Sn2=mn,2=(n1)S2/n

次序统计量是将样本从小到大排列以后,排列在第几个的样本就是其第几次序统计量,这包括最大值、最小值。

统计量也有两重性,当统计量作为随机变量时也有它的分布函数。

数理统计中,取统计量是为了估计分布族中的未知参数。分布族是一类分布构成的集合,如正态分布族、指数分布族等,它们都具有未知参数,所有可能取到的参数构成参数空间。

经验分布函数是 F n ( x ) = # { X 1 , ⋯   , X n < x } F_n(x)=\#\{X_1,\cdots,X_n <x\} Fn(x)=#{X1,,Xn<x},即样本观测值中小于 x x x的个数。格里汶科定理表明当 n → ∞ n\to \infty n时, F n ( x ) F_n(x) Fn(x)以概率1收敛于 F ( x ) F(x) F(x)

第二章

本章重点是数理统计中的常用分布与相关性质,包含正态分布、 Γ \Gamma Γ分布、 B \Beta B分布、三大分布、 Z Z Z分布、次序统计量分布、指数族、充分完全统计量等。

正态分布是三大分布的基础,独立的正态随机变量可以经过线性组合变换成另一个正态随机变量,具体有以下定理(以下正态变量均独立):
X k ∼ N ( a k , σ k 2 ) ⇒ ∑ k = 1 n X k ∼ N ( a , σ 2 ) , a = ∑ i = 1 n a k , σ 2 = ∑ i = 1 n σ k 2 X ∼ N ( a , σ 2 ) ⇒ n X ∼ N ( n a , n 2 σ 2 ) X ∼ N ( a , σ 2 ) ⇒ X ˉ ∼ N ( a , σ 2 / n ) X_k\sim N(a_k,\sigma_k^2)\Rightarrow \sum_{k=1}^nX_k\sim N(a,\sigma^2),a=\sum_{i=1 }^na_k,\sigma^2=\sum_{i=1}^n \sigma_k^2\\ X\sim N(a,\sigma^2)\Rightarrow nX\sim N(na, n^2\sigma^2) \\ X\sim N(a,\sigma^2)\Rightarrow \bar X\sim N(a,\sigma^2/n) XkN(ak,σk2)k=1nXkN(a,σ2),a=i=1nak,σ2=i=1nσk2XN(a,σ2)nXN(na,n2σ2)XN(a,σ2)XˉN(a,σ2/n)
对于正态分布总体 N ( a , σ 2 ) N(a,\sigma^2) N(a,σ2),其样本均值、样本方差有以下结论:

  1. X ˉ ∼ N ( a , σ 2 / n ) \bar X\sim N(a,\sigma^2/n) XˉN(a,σ2/n)
  2. ( n − 1 ) S 2 / σ 2 ∼ χ n − 1 2 (n-1)S^2/\sigma^2\sim \chi^2_{n-1} (n1)S2/σ2χn12
  3. X ˉ , S 2 \bar X,S^2 Xˉ,S2相互独立,这只对正态总体成立。

为了证明以上结论,常常构造一个正交矩阵 A \boldsymbol A A
( 1 n 1 n 1 n ⋯ 1 n 1 2 ⋅ 1 − 1 2 ⋅ 1 0 ⋯ 0 1 3 ⋅ 2 1 3 ⋅ 2 − 2 3 ⋅ 2 ⋯ 0 ⋯ ⋯ ⋯ ⋯ ⋯ 1 n ( n − 1 ) 1 n ( n − 1 ) 1 n ( n − 1 ) ⋯ − ( n − 1 ) n ( n − 1 ) ) \left( \begin{array}{c} \frac{1}{\sqrt n}&\frac1{\sqrt n}&\frac1{\sqrt n}&\cdots&\frac1{\sqrt n}\\ \frac1{\sqrt {2\cdot 1}}&\frac{-1}{\sqrt {2\cdot1}}&0&\cdots&0\\ \frac1{\sqrt{3\cdot2}}&\frac1{\sqrt{3\cdot2}}&\frac{-2}{\sqrt {3\cdot2}}&\cdots&0\\ \cdots&\cdots&\cdots &\cdots&\cdots\\ \frac1{\sqrt {n(n-1)}}&\frac1{\sqrt {n(n-1)}}&\frac1{\sqrt {n(n-1)}}&\cdots&\frac{-(n-1)}{\sqrt{n(n-1)}} \end{array} \right) n 121 132 1n(n1) 1n 121 132 1n(n1) 1n 1032 2n(n1) 1n 100n(n1) (n1)
然后利用 Y = A X \boldsymbol Y=\boldsymbol {AX} Y=AX,可以证明得到2、3两个结论。


数理统计中常常用到两个欧拉积分以及相关变化, Γ \Gamma Γ积分与 B \Beta B积分如下:
Γ ( α ) = ∫ 0 ∞ x α − 1 e − x d x B ( a , b ) = ∫ 0 1 x a − 1 ( 1 − x ) b − 1 d x \Gamma(\alpha)=\int_0^\infty x^{\alpha-1}e^{-x}dx\\ \Beta(a,b)=\int_0^1 x^{a-1}(1-x)^{b-1}dx Γ(α)=0xα1exdxB(a,b)=01xa1(1x)b1dx
欧拉积分的相关变换还有
Γ ( α + 1 ) = α Γ ( α ) B ( a , b ) = ∫ 0 1 x a − 1 ( 1 − x ) b − 1 d x = x = t 1 + t t = x 1 − x ∫ 0 ∞ t a − 1 ( 1 + t ) − ( a + b ) d t = ∫ 0 ∞ x a − 1 ( 1 + x ) a + b d x B ( a , b ) = Γ ( a ) Γ ( b ) Γ ( a + b ) \begin{aligned} \Gamma(\alpha+1)=&\alpha\Gamma(\alpha) \\ \Beta(a,b)=&\int_0^1x^{a-1}(1-x)^{b-1}dx\\ {\xlongequal[x=\frac{t}{1+t}]{t=\frac{x}{1-x}}{}}&\int_0^\infty t^{a-1}(1+t)^{-(a+b)}dt\\ =&\int_0^\infty\frac{x^{a-1}}{(1+x)^{a+b}}dx\\ \quad\\ \Beta(a,b)=&\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} \end{aligned} Γ(α+1)=B(a,b)=t=1xx x=1+tt=B(a,b)=αΓ(α)01xa1(1x)b1dx0ta1(1+t)(a+b)dt0(1+x)a+bxa1dxΓ(a+b)Γ(a)Γ(b)
基于此,有三种分布: Γ \Gamma Γ分布、 B \Beta B分布、 Z Z Z分布,其密度函数分别为:
Γ ( α , λ ) = λ α Γ ( α ) x α − 1 e − λ x I ( 0 , ∞ ) ( x ) B ( a , b ) = 1 B ( a , b ) x a − 1 ( 1 − x ) b − 1 I ( 0 , 1 ) ( x ) Z ( a , b ) = 1 B ( a , b ) x a − 1 ( 1 + x ) a + b I ( 0 , ∞ ) ( x ) \Gamma(\alpha,\lambda)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}I_{(0,\infty)}(x)\\ \Beta(a,b)=\frac{1}{\Beta(a,b)}x^{a-1}(1-x)^{b-1}I_{(0,1)}(x)\\ Z(a,b)=\frac1{\Beta(a,b)}\frac{x^{a-1}}{(1+x)^{a+b}}I_{(0,\infty)}(x) Γ(α,λ)=Γ(α)λαxα1eλxI(0,)(x)B(a,b)=B(a,b)1xa1(1x)b1I(0,1)(x)Z(a,b)=B(a,b)1(1+x)a+bxa1I(0,)(x)
三种分布的矩都可以通过欧拉积分变换求均值,分别为
E ( Γ ( α , λ ) ) = α λ , E ( B ( a , b ) ) = a a + b , E ( Z ( a , b ) ) = a b − 1 E(\Gamma(\alpha,\lambda))=\frac{\alpha}{\lambda},E(\Beta(a,b))=\frac a{a+b},E(Z(a,b))=\frac{a}{b-1} E(Γ(α,λ))=λα,E(B(a,b))=a+ba,E(Z(a,b))=b1a
三种分布的独立随机变量还满足以下一些关系:
X 1 ∼ Γ ( α 1 , λ ) , X 2 ∼ Γ ( α 2 , λ ) ⇒ X 1 + X 2 ∼ Γ ( α 1 + α 2 , λ ) X 1 ∼ Γ ( α 1 , λ ) , X 2 ∼ Γ ( α 2 , λ ) ⇒ X 1 X 1 + X 2 ∼ B ( α 1 , α 2 ) X 1 ∼ Γ ( α 1 , λ ) , X 2 ∼ Γ ( α 2 , λ ) ⇒ X 1 X 2 ∼ Z ( α 1 , α 2 ) Y ∼ B ( a , b ) ⇒ Y 1 − Y ∼ Z ( a , b ) X ∼ Z ( a , b ) ⇒ X 1 + X ∼ B ( a , b ) X_1\sim \Gamma(\alpha_1,\lambda),X_2\sim \Gamma(\alpha_2,\lambda)\Rightarrow X_1+X_2\sim \Gamma(\alpha_1+\alpha_2,\lambda)\\ X_1\sim \Gamma(\alpha_1,\lambda),X_2\sim \Gamma(\alpha_2,\lambda)\Rightarrow \frac{X_1}{X_1+X_2}\sim \Beta(\alpha_1,\alpha_2)\\ X_1\sim \Gamma(\alpha_1,\lambda),X_2\sim \Gamma(\alpha_2,\lambda)\Rightarrow \frac{X_1}{X_2}\sim Z(\alpha_1,\alpha_2) \\ Y\sim \Beta(a,b)\Rightarrow \frac{Y}{1-Y}\sim Z(a,b)\\ X\sim Z(a,b)\Rightarrow \frac{X}{1+X}\sim \Beta(a,b) X1Γ(α1,λ),X2Γ(α2,λ)X1+X2Γ(α1+α2,λ)X1Γ(α1,λ),X2Γ(α2,λ)X1+X2X1B(α1,α2)X1Γ(α1,λ),X2Γ(α2,λ)X2X1Z(α1,α2)YB(a,b)1YYZ(a,b)XZ(a,b)1+XXB(a,b)


关于次序统计量,其密度函数可以由几何意义得出,这里写出几个常用的密度函数(分布函数),下设总体分布为 F ( x ) F(x) F(x),总体密度为 p ( x ) p(x) p(x)

X ( k ) X_{(k)} X(k)的密度函数为
p k ( x ) = n ! ( n − k ) ! ( k − 1 ) ! [ F ( x ) ] k − 1 [ ( 1 − F ( x ) ) ] n − k p ( x ) p_k(x)=\frac{n!}{(n-k)!(k-1)!}[F(x)]^{k-1}[(1-F(x))]^{n-k}p(x) pk(x)=(nk)!(k1)!n![F(x)]k1[(1F(x))]nkp(x)
特别地对于最大最小值,有
p 1 ( x ) = n p ( x ) [ 1 − F ( x ) ] n − 1 , F 1 ( x ) = 1 − [ 1 − F ( x ) ] n p n ( x ) = n p ( x ) [ F ( x ) ] n − 1 , F n ( x ) = [ F ( x ) ] n p_1(x)=np(x)[1-F(x)]^{n-1},\quad F_1(x)=1-[1-F(x)]^{n}\\ p_n(x)=np(x)[F(x)]^{n-1},\quad F_n(x)=[F(x)]^n p1(x)=np(x)[1F(x)]n1,F1(x)=1[1F(x)]npn(x)=np(x)[F(x)]n1,Fn(x)=[F(x)]n
( X ( i ) , X ( j ) ) (X_{(i)},X_{(j)}) (X(i),X(j))的联合密度为
p i , j ( x i , x j ) = n ! ( x i − 1 ) ! ( x j − x i − 1 ) ! ( n − x j ) ! [ F ( x i ) ] x i − 1 ⋅ [ F ( x j ) − f ( x i ) ] x j − x i − 1 [ 1 − f ( x j ) ] n − x j p ( x i ) p ( x j ) I ( x i < x j ) p_{i,j}(x_i,x_j)=\frac{n!}{(x_i-1)!(x_j-x_i-1)!(n-x_j)!}[F(x_i)]^{x_i-1}\cdot\\ [F(x_j)-f(x_i)]^{x_j-x_i-1}[1-f(x_j)]^{n-x_j}p(x_i)p(x_j)I(x_i<x_j) pi,j(xi,xj)=(xi1)!(xjxi1)!(nxj)!n![F(xi)]xi1[F(xj)f(xi)]xjxi1[1f(xj)]nxjp(xi)p(xj)I(xi<xj)
特别地对于 ( X ( 1 ) , X ( n ) ) (X_{(1)},X_{(n)}) (X(1),X(n)),有
p 1 , n ( x , y ) = n ( n − 1 ) [ F ( y ) − F ( x ) ] n − 2 p ( x ) p ( y ) I ( x < y ) p_{1,n}(x,y)=n(n-1)[F(y)-F(x)]^{n-2}p(x)p(y)I(x<y) p1,n(x,y)=n(n1)[F(y)F(x)]n2p(x)p(y)I(x<y)
( X ( 1 ) , ⋯   , X ( n ) ) (X_{(1)},\cdots,X_{(n)}) (X(1),,X(n))的联合密度为
p ( x ( 1 ) , ⋯   , x ( n ) ) = n ! p ( x ( 1 ) ) ⋯ p ( x ( n ) ) I ( x ( 1 ) < ⋯ < x ( n ) ) p(x_{(1)},\cdots,x_{(n)})=n!p(x_{(1)})\cdots p(x_{(n)})I(x_{(1)}<\cdots<x_{(n)}) p(x(1),,x(n))=n!p(x(1))p(x(n))I(x(1)<<x(n))
对于均匀分布 U ( 0 , 1 ) U(0,1) U(0,1),其极差分布为
p R ( r ) = n ( n − 1 ) r n − 2 ( 1 − r ) I ( 0 < r < 1 ) p_R(r)=n(n-1)r^{n-2}(1-r)I(0<r<1) pR(r)=n(n1)rn2(1r)I(0<r<1)


三大分布族指 χ 2 \chi^2 χ2分布、 t t t分布与 F F F分布,他们都是与正态分布相关的分布。

χ n 2 \chi^2_n χn2分布是 n n n个独立的 N ( 0 , 1 ) N(0,1) N(0,1)变量和的分布,其密度函数为 Γ ( n / 2 , 1 / 2 ) \Gamma(n/2,1/2) Γ(n/2,1/2)。其相关变形有
X ∼ Γ ( n , λ ) ⇒ 2 λ X ∼ χ 2 n 2 X 1 ∼ χ a 2 , X 2 ∼ χ b 2 ⇒ X 1 + X 2 ∼ χ a + b 2 X\sim \Gamma(n,\lambda)\Rightarrow 2\lambda X\sim \chi^2_{2n}\\ X_1\sim \chi^2_{a},X_2\sim \chi^2_b\Rightarrow X_1+X_2\sim \chi^2_{a+b} XΓ(n,λ)2λXχ2n2X1χa2,X2χb2X1+X2χa+b2
t t t分布是 N ( 0 , 1 ) N(0,1) N(0,1) χ n 2 \chi^2_n χn2分布正则化后的比值,即
X ∼ N ( 0 , 1 ) , Y ∼ χ n 2 ⇒ T = X Y / n ∼ t n X\sim N(0,1), Y\sim \chi^2_n\Rightarrow T=\frac{X}{\sqrt{Y/n}}\sim t_n XN(0,1),Yχn2T=Y/n Xtn
F F F分布是两个正则化 χ 2 \chi^2 χ2分布的比值,即
X ∼ χ m 2 , Y ∼ χ n 2 ⇒ F = X / m Y / n ∼ F m , n X\sim \chi^2_m, Y\sim \chi^2_n\Rightarrow F=\frac{X/m}{Y/n}\sim F_{m,n} Xχm2,Yχn2F=Y/nX/mFm,n
三大分布都有其各自的分位数表,可以用来进行区间估计和假设检验。 F F F分布在查表时还会用到以下用来求 α \alpha α较接近1时的转换公式:
F m , n ( 1 − α ) = 1 F n , m ( α ) F_{m,n}(1-\alpha)=\frac1{F_{n,m}(\alpha)} Fm,n(1α)=Fn,m(α)1
正态分布的相关统计量中,也有与三大分布的关联。以下单样本时设 X ∼ ( a , σ 2 ) X\sim(a,\sigma^2) X(a,σ2)样本个数为 n n n;双样本时设 X ∼ N ( a 1 , σ 1 2 ) X\sim N(a_1,\sigma_1^2) XN(a1,σ12)样本个数为 m m m Y ∼ N ( a 2 , σ 2 2 ) Y\sim N(a_2,\sigma_2^2) YN(a2,σ22)样本个数为 n n n
∑ i = 1 n ( X i − a σ ) 2 ∼ χ n 2 T = n ( X ˉ − a ) S ∼ t n − 1 F = S 1 2 S 2 2 σ 2 2 σ 1 2 ∼ F m − 1 , n − 1 \sum_{i=1}^n\left(\frac{X_i-a}{\sigma}\right)^2\sim \chi^2_n\\ \quad\\ T=\frac{\sqrt n(\bar X-a)}{S}\sim t_{n-1}\\ \quad\\ F=\frac{S_1^2}{S_2^2}\frac{\sigma_2^2}{\sigma_1^2}\sim F_{m-1,n-1} i=1n(σXia)2χn2T=Sn (Xˉa)tn1F=S22S12σ12σ22Fm1,n1


指数族是一系列具有特殊形式样本密度函数(概率分布列)的参数分布族,如果可以将联合密度函数写成如下形式:
f ( x ) = C ( θ ) exp ⁡ { ∑ i = 1 k Q i ( θ ) T i ( x ) } h ( x ) f(\boldsymbol x)=C(\theta)\exp\left\{ \sum_{i=1}^kQ_i(\theta)T_i(\boldsymbol x) \right\}h(\boldsymbol x) f(x)=C(θ)exp{i=1kQi(θ)Ti(x)}h(x)
指数族拥有良好的性质,最典型的是指数分布族拥有共同的支撑集,因此 U ( 0 , θ ) U(0,\theta) U(0,θ)显然不是指数族。而正态分布族、二项分布族、Gamma分布族、泊松分布族等都是指数族。

在指数族的形式中,如果令 φ i = Q i ( θ ) \varphi_i=Q_i(\theta) φi=Qi(θ),将 f ( x ; θ ) f(\boldsymbol x;\theta) f(x;θ)改写成 f ( x ; φ ) f(\boldsymbol x;\varphi) f(x;φ),就得到指数族的自然形式如下:
f ( x ) = C ∗ ( φ ) exp ⁡ { ∑ i = 1 k φ i T i ( x ) } h ( x ) f(\boldsymbol x)=C^*(\varphi)\exp\left\{ \sum_{i=1}^k\varphi_iT_i(\boldsymbol x) \right\}h(\boldsymbol x) f(x)=C(φ)exp{i=1kφiTi(x)}h(x)
指数族的自然参数空间为凸集;指数族求导可以在积分号下求导,且可以求任意阶导数。


充分统计量指的是蕴含样本中所有关于未知参数信息的统计量,即在已知 T T T的条件下,样本的条件分布与未知参数 θ \theta θ无关。对于离散情形,要验证 P ( X ∈ A ∣ T ) \mathbf P(\boldsymbol X\in A|T) P(XAT) θ \theta θ无关;对于连续情形,要验证 p ( x ∣ T ) p(\boldsymbol x|T) p(xT) θ \theta θ无关,这里
P ( X ∈ A ∣ T = t ) = P ( X ∈ A , T = t ) P ( T = t ) p ( x ∣ t ) = p ( x , t ) p ( t ) \mathbf P(\boldsymbol X\in A|T=t)=\frac{P(\boldsymbol X\in A,T=t)}{P(T=t)}\\ p(\boldsymbol x|t)=\frac{p(x,t)}{p(t)} P(XAT=t)=P(T=t)P(XA,T=t)p(xt)=p(t)p(x,t)
用定义验证统计量的充分性是麻烦的,如果可以将样本的联合密度函数写成
p ( x ; θ ) = g ( T ( x ) , θ ) p(\boldsymbol x;\theta)=g(T(\boldsymbol x),\theta) p(x;θ)=g(T(x),θ)
的形式,则 T ( X ) T(\boldsymbol X) T(X)是充分统计量,这是因子分解定理。

完备统计量指的是对于某一个统计量 T T T,对任何满足 E ( φ ( T ) ) = 0 E(\varphi(T))=0 E(φ(T))=0都能推出 φ = 0 \varphi=0 φ=0以概率1成立。要证明统计量的完备性,一般会写出 E ( φ ( T ) ) E(\varphi(T)) E(φ(T))的离散和式或连续积分式,然后比较未知参数的系数或者对未知参数求导,从而得到 φ = 0 \varphi=0 φ=0

在指数族的自然形式中,分布函数为
f ( x ; θ ) = C ( θ ) exp ⁡ { ∑ i = 1 k θ i T i ( x ) } h ( x ) f(\boldsymbol x;\theta)=C(\theta)\exp\left\{ \sum_{i=1 }^k\theta_iT_i(\boldsymbol x) \right\}h(\boldsymbol x) f(x;θ)=C(θ)exp{i=1kθiTi(x)}h(x)
θ \theta θ的自然参数空间 Θ ∗ \Theta^* Θ中,如果其作为 R k \R^k Rk的子集有内点,则 T ( X ) = ( T 1 ( X ) , ⋯   , T k ( X ) ) \boldsymbol T(\boldsymbol X)=(T_1(\boldsymbol X),\cdots,T_k(\boldsymbol X)) T(X)=(T1(X),,Tk(X))是完全统计量;如果 h ( x ) = 1 h(\boldsymbol x)=1 h(x)=1,则它还是充分统计量。

要证明某个统计量不是完备的,就要找到一个函数 φ ≠ 0 \varphi\neq0 φ=0,但 E ( φ ( T ) ) = 0 E(\varphi(T))=0 E(φ(T))=0

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值