第一章 随机事件及其概率
频率稳定值
⇒
\Rightarrow
⇒引入”概率“的概念
一、等可能概型(古典概型)
若随机试验 E E E满足以下条件:
(1)样本空间 S S S只有有限个样本点,即 S = { e 1 , e 2 , . . . e n } S=\{e_1,e_2,...e_n\} S={e1,e2,...en};
(2)每个样本点出现的可能性相同,即对基本事件 { e i } ( i = 1 , 2 , . . n ) \{e_i\}(i=1,2,..n) {ei}(i=1,2,..n)而言,有
P ( { e 1 } ) = P ( { e 2 } ) = . . . P ( { e n } ) P(\{e_1\})=P(\{e_2\})=...P(\{e_n\}) P({e1})=P({e2})=...P({en})
则称这类随机现象的数学模型为等可能概型
应用:
取小球、取灯泡次品、掷骰子
引出:
生日悖论 ⇒ \Rightarrow ⇒设计密码学攻击方法
几何概型 ⇒ \Rightarrow ⇒无穷多个样本点时,抽象成落点区域的面积(蒲丰投针实验求 π \pi π)
二、全概率公式
设试验 E E E的样本空间为S, A A A为 E E E的一个事件, B 1 , B 2 , . . . B n B_1,B_2,...B_n B1,B2,...Bn为 S S S的一个划分,且 P ( B i ) > 0 , i = 1 , 2 , . . . n P(B_i)>0,i=1,2,...n P(Bi)>0,i=1,2,...n,则
P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + . . . P ( A ∣ B n ) P ( B n ) P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+...P(A|B_n)P(B_n) P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...P(A∣Bn)P(Bn)称为全概率公式
证明:
根据加法公式
应用:
直接求 P ( A ) P(A) P(A)不好求 ⇒ \Rightarrow ⇒找到S的一个合适的划分,根据全概率公式求
三、贝叶斯公式
设实验 E E E的样本空间为 S S S, A A A为 E E E的事件, B 1 , B 2 , . . . B n B_1,B_2,...B_n B1,B2,...Bn为S的一个划分,且 P ( A ) > 0 , P ( B i ) > 0 , i = 1 , 2 , . . . n P(A)>0,P(B_i)>0,i=1,2,...n P(A)>0,P(Bi)>0,i=1,2,...n则有
P ( B i ∣ A ) = P(B_i|A)= P(Bi∣A)= P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) {P(B_i)P(A|B_i)}\over{\sum_{j=1}^{n}P(B_j)P(A|B_j)} ∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
P ( B i ) P(B_i) P(Bi)称为先验概率,它反映了各种原因发生的可能性大小,”主观概率“
P ( B i ∣ A ) P(B_i|A) P(Bi∣A)称为后验概率
证明:
条件公式+全概率公式
第二章 随机变量及其分布
随机变量的引入 意义重大
一、离散型随机分布
1.二项分布
对于实验 E E E,各次实验独立,只有两个可能的对立结果: A A A 和 A ‾ \overline A A,重复进行 n n n次,称这一串重复的独立试验为 n n n重伯努利试验,称随机变量 X X X服从参数为 n , p n,p n,p的二项分布, X ∼ B ( n , p ) X\sim B(n,p) X∼B(n,p)。
P { X = k } = C n k p k ( 1 − p ) n − k , ( k = 0 , 1 , . . . n , 0 < p < 1 ) P\{X=k\}=C_n^kp^k(1-p)^{n-k},(k=0,1,...n,0<p<1) P{X=k}=Cnkpk(1−p)n−k,(k=0,1,...n,0<p<1)
特别的,当n=1时,称为**(0-1)分布**
对于概率 P { X = k } P\{X=k\} P{X=k}的最大值问题: P { X = k } = m a x { P { ( n + 1 ) p } , P { ( n + 1 ) p − 1 } } P\{X=k\}=max\{P\{(n+1)p\},P\{(n+1)p-1\}\} P{X=k}=max{P{(n+1)p},P{(n+1)p−1}}
证明:
p k , p k − 1 p_k,p_{k-1} pk,pk−1除法证明
超几何分布产生于不放回抽样,二项分布产生于放回抽样
当n<<N时,超几何分布可以用二项分布来近似
泊松定理:
lim n → ∞ C n k p k ( 1 − p ) n − k = λ k k ! e − λ \lim_{n \to \infty} C_n^kp^k(1-p)^{n-k}={{\lambda^k}\over{k!}}e^{-\lambda} limn→∞Cnkpk(1−p)n−k=k!λke−λ
⇒ \Rightarrow ⇒ 二项分布的近似计算公式(令 n p = λ np=\lambda np=λ)
证明:
lim n → ∞ n ! ( n − k ) ! n k = 1 \lim_{n \to \infty} {n!\over (n-k)!n^k}=1 limn→∞(n−k)!nkn!=1
lim n → ∞ ( 1 − λ n ) k = 1 \lim_{n \to \infty} (1-{\lambda\over n})^k=1 limn→∞(1−nλ)k=1
lim n → ∞ ( 1 − λ n ) n = e − λ \lim_{n \to \infty} (1-{\lambda\over n})^n=e^{-\lambda} limn→∞(1−nλ)n=e−λ
2.泊松分布
设随机变量 X X X的所有可能取值为0,1,2,…,而取各个值的概率为
P { X = k } = λ k k ! e − λ , ( k = 0 , 1 , 2 , . . . , λ > 0 ) P\{X=k\}={{\lambda^k}\over{k!}}e^{-\lambda},(k=0,1,2,...,\lambda>0) P{X=k}=k!λke−λ,(k=0,1,2,...,λ>0)
则称 X X X服从参数为 λ \lambda λ的泊松分布,记作 X ∼ π ( λ ) X \sim \pi(\lambda) X∼π(λ)
3.几何分布
若随机变量的 X X X的分布律为
P { X = k } = ( 1 − p ) k − 1 p , ( k = 1 , 2 , . . . , 0 < p < 1 ) P\{X=k\}=(1-p)^{k-1}p,(k=1,2,...,0<p<1) P{X=k}=(1−p)k−1p,(k=1,2,...,0<p<1)
则称 X X X服从几何分布,记作 X ∼ G ( p ) X \sim G(p) X∼G(p)
特别的,在伯努 利试验中,事件A首次发生的试验次数服从几何分布
性质:
无记忆性: P { X > n + m ∣ X > n } = P { X > m } P\{X>n+m|X>n\}=P\{X>m\} P{X>n+m∣X>n}=P{X>m}
二、连续型随机变量及其概率密度函数
F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^xf(t) {\rm d}t F(x)=∫−∞xf(t)dt
lim Δ x → + 0 ∫ x 0 − Δ x x 0 f ( x ) d x = 0 ⇒ \lim_{\Delta x \to +0}\int_{x_0-\Delta x}^{x_0} f(x){\rm d}x=0 \Rightarrow limΔx→+0∫x0−Δxx0f(x)dx=0⇒ 取任一指定的实数值的概率为零,即 P { X = x 0 } = 0 P\{X=x_0\}=0 P{X=x0}=0
P ( A ) = 0 P(A)=0 P(A)=0不意味着A是不可能事件,这是从微元的角度上来说的
1.均匀分布
若连续型随机变量 X X X的概率密度函数为
f ( x ) = { 1 b − a a<x<b 0 else f(x)= \begin{cases} 1\over{b-a}& \text{a<x<b}\\ 0& \text{else} \end{cases} f(x)={b−a10a<x<belse
则称
X
X
X在区间
(
a
,
b
)
(a,b)
(a,b)上服从均匀分布,记作
X
∼
U
(
a
,
b
)
X \sim U(a,b)
X∼U(a,b)
2.指数分布
若连续型随机变量 X X X的概率密度函数为
f ( x ) = { λ e − λ x x>=0 0 x<0 f(x)= \begin{cases} \lambda e^{-\lambda x}& \text{x>=0}\\ 0& \text{x<0} \end{cases} f(x)={λe−λx0x>=0x<0
其中 λ > 0 \lambda >0 λ>0为常数,则称 X X X服从参数为 λ \lambda λ的指数分布,记作 X ∼ E ( λ ) X \sim E(\lambda) X∼E(λ)
满足无记忆性,在可靠性理论和排队论中广泛应用
3.正态分布
若连续型随机变量 X X X的概率密度函数为
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)={1\over {\sqrt{2 \pi }\sigma}} e^{-{{(x-\mu)^2}\over {2\sigma^2}}} f(x)=2πσ1e−2σ2(x−μ)2
其中 σ > 0 , μ \sigma>0,\mu σ>0,μ为常数,则称 X X X服从参数为 μ , σ \mu,\sigma μ,σ的正态分布或高斯分布,记作 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) X∼N(μ,σ2)
特别的,当
μ
=
0
,
σ
=
1
\mu=0,\sigma=1
μ=0,σ=1时的正态分布称为标准正态分布,记作
N
(
0
,
1
)
N(0,1)
N(0,1)
定理1:若
X
X
X服从正态分布
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2),则
Z
=
X
−
μ
σ
Z={X-\mu \over \sigma}
Z=σX−μ服从标准正态分布
发现1:对于标准正态分布而言,当变量值落在 μ ± 3 σ \mu \pm 3\sigma μ±3σ的范围内时,几乎是必然事件,这就是”3 σ \sigma σ"原则
三、随机变量的函数分布
设随机变量 X X X具有概率密度函数 f X ( x ) , − ∞ < x < + ∞ f_X(x),-\infty<x<+\infty fX(x),−∞<x<+∞,又设函数 g ( x ) g(x) g(x)处处可导且严格单调, h ( y ) h(y) h(y)是 g ( x ) g(x) g(x)的反函数,则 Y = g ( X ) Y=g(X) Y=g(X)是连续型随机变量,其概率密度函数为
f Y ( y ) = { f X [ h ( y ) ] ∣ h ′ ( y ) ∣ α < y < β 0 else f_Y(y)= \begin{cases} f_X[h(y)]|h'(y)|& \alpha<y<\beta\\ 0& \text{else} \end{cases} fY(y)={fX[h(y)]∣h′(y)∣0α<y<βelse
1.求导+绝对值
2.注意分段单调的情况
第三章 多维随机变量及其分布
二维随机变量 ( X , Y ) (X,Y) (X,Y)的性质不仅与 X X X和 Y Y Y有关,而且还依赖于这两个随机变量的相互关系。
作为整体研究时:联合分布函数 F ( x , y ) = P { X < = x } ⋂ P { Y < = y } F(x,y)=P\{X<=x\}\bigcap P\{Y<=y\} F(x,y)=P{X<=x}⋂P{Y<=y}
单独考虑某一个随机变量的概率分布问题: F X ( x ) = P { X < = x , Y < + ∞ } F_X(x)=P\{X<=x,Y<+\infty\} FX(x)=P{X<=x,Y<+∞}
X , Y X,Y X,Y相互独立的充要条件:对任意的实数 x , y x,y x,y,都有 f ( x , y ) = f X ( x ) f Y ( y ) f(x,y)=f_X(x)f_Y(y) f(x,y)=fX(x)fY(y)
两种典型的:二维均匀分布,二维正态分布
一、边缘分布
暂时不考虑二维离散型随机变量:
设 f ( x , y ) f(x,y) f(x,y)是 ( X , Y ) (X,Y) (X,Y)的概率密度函数,则 ( X , Y ) (X,Y) (X,Y)关于 X , Y X,Y X,Y的边缘概率密度函数为:
f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy fX(x)=∫−∞+∞f(x,y)dy
f Y ( y ) = ∫ − ∞ + ∞ f ( x , y ) d x f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx fY(y)=∫−∞+∞f(x,y)dx
二、条件分布
设 ( X , Y ) (X,Y) (X,Y)的概率密度函数为 f ( x , y ) f(x,y) f(x,y), f Y ( y ) f_Y(y) fY(y)为Y的边缘概率密度函数,对于固定的 y y y, f Y ( y ) > 0 f_Y(y)>0 fY(y)>0, f ( x , y ) f Y ( y ) f(x,y)\over f_Y(y) fY(y)f(x,y)为在 Y = y Y=y Y=y的条件下 X X X的条件概率密度函数,记为:
f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) f_{X|Y}(x|y)={f(x,y)\over f_Y(y)} fX∣Y(x∣y)=fY(y)f(x,y)
三、二维随机变量的函数分布
1.Z=X+Y的分布
F Z ( z ) = P { Z ≤ z } = ∬ x + y ≤ z f ( x , y ) d x d y F_Z(z)=P\{Z \leq z\}=\iint_{x+y \leq z}f(x,y)dxdy FZ(z)=P{Z≤z}=∬x+y≤zf(x,y)dxdy
= ∫ − ∞ + ∞ [ ∫ − ∞ z − y f ( x , y ) d x ] d y =\int_{-\infty}^{+\infty}[\int_{-\infty}^{z-y}f(x,y)dx]dy =∫−∞+∞[∫−∞z−yf(x,y)dx]dy
= ∫ − ∞ + ∞ ∫ − ∞ z f ( u − y , y ) d u d y =\int_{-\infty}^{+\infty}\int_{-\infty}^{z}f(u-y,y)dudy =∫−∞+∞∫−∞zf(u−y,y)dudy
= ∫ − ∞ z [ ∫ − ∞ + ∞ f ( u − y , y ) d y ] d u =\int_{-\infty}^{z}[\int_{-\infty}^{+\infty}f(u-y,y)dy]du =∫−∞z[∫−∞+∞f(u−y,y)dy]du
故 f Z ( z ) = ∫ − ∞ + ∞ f ( z − y , y ) d y f_Z(z)=\int_{-\infty}^{+\infty}f(z-y,y)dy fZ(z)=∫−∞+∞f(z−y,y)dy
同理, f Z ( z ) = ∫ − ∞ + ∞ f ( x , z − x ) d x f_Z(z)=\int_{-\infty}^{+\infty}f(x,z-x)dx fZ(z)=∫−∞+∞f(x,z−x)dx
特别的,当 X , Y X,Y X,Y相互独立时, f Z ( z ) = ∫ − ∞ + ∞ f X ( z − y ) f Y ( y ) d y f_Z(z)=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy fZ(z)=∫−∞+∞fX(z−y)fY(y)dy
f Z ( z ) = ∫ − ∞ + ∞ f X ( x ) f Y ( z − x ) d x f_Z(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx fZ(z)=∫−∞+∞fX(x)fY(z−x)dx
卷积公式,记作 f X ∗ f Y f_X*f_Y fX∗fY
推广:对于两个正态分布, Z = X + Y Z=X+Y Z=X+Y服从正态分布 N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2) N(μ1+μ2,σ12+σ22)
2.Z=X/Y和Z=XY的分布
f Z ( z ) = f X Y ( z ) = ∫ − ∞ + ∞ ∣ y ∣ f ( y z , y ) d y f_Z(z)=f_{X\over Y}(z)=\int_{-\infty}^{+\infty}|y|f(yz,y)dy fZ(z)=fYX(z)=∫−∞+∞∣y∣f(yz,y)dy
f Z ( z ) = f X Y ( z ) = ∫ − ∞ + ∞ ∣ 1 X ∣ f ( x , z x ) d x f_Z(z)=f_{XY}(z)=\int_{-\infty}^{+\infty}|{1\over X}|f(x,{z \over x})dx fZ(z)=fXY(z)=∫−∞+∞∣X1∣f(x,xz)dx
同样可以推广到 X , Y X,Y X,Y相互独立的情况
第四章 随机变量的数字特征
数字特征 ⇒ \Rightarrow ⇒概略地描述随机变量的基本特点,能代表随机变量的主要特征
一、数学期望
它描述了随机变量一切可能取值的平均水平
离散型随机变量: E ( X ) = ∑ k = 1 + ∞ x k p k E(X)=\sum_{k=1}^{+ \infty} x_kp_k E(X)=∑k=1+∞xkpk
连续型随机变量: E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)=\int_{-\infty}^{+\infty}xf(x)dx E(X)=∫−∞+∞xf(x)dx
离散型随机变量函数: E ( Y ) = E [ g ( X ) ] = ∑ k = 1 + ∞ g ( x k ) p k E(Y)=E[g(X)]=\sum_{k=1}^{+ \infty} g(x_k)p_k E(Y)=E[g(X)]=∑k=1+∞g(xk)pk
连续型随机变量函数: E ( Y ) = E [ g ( X ) ] = ∫ − ∞ + ∞ g ( x ) f ( x ) d x E(Y)=E[g(X)]=\int_{-\infty}^{+\infty}g(x)f(x)dx E(Y)=E[g(X)]=∫−∞+∞g(x)f(x)dx
推广到二维连续型: E ( Z ) = E [ g ( x , y ) ] = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x , y ) f ( x , y ) d x d y E(Z)=E[g(x,y)]=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy E(Z)=E[g(x,y)]=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy
所有的数学期望存在的充要条件是后式绝对收敛
性质:
对于常数 C C C, E ( C X ) = C E ( X ) E(CX)=CE(X) E(CX)=CE(X)
E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)是 X , Y X,Y X,Y相互独立的必要条件,而不是充要条件
二、方差
它反映了随机变量取值与数学期望值的偏离程度,越小越集中
方差: V a r ( X ) = D ( X ) = E { [ X − E ( X ) ] 2 } Var(X)=D(X)=E\{[X-E(X)]^2\} Var(X)=D(X)=E{[X−E(X)]2}
标准差: σ ( X ) = D ( X ) \sigma(X)=\sqrt{D(X)} σ(X)=D(X)
计算方法:
D ( X ) = ∫ − ∞ + ∞ [ x − E ( X ) ] 2 f ( x ) d x D(X)=\int_{-\infty}^{+\infty}[x-E(X)]^2f(x)dx D(X)=∫−∞+∞[x−E(X)]2f(x)dx
D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 D(X)=E(X^2)-[E(X)]^2 D(X)=E(X2)−[E(X)]2
性质:
对于常数 C C C, D ( C X ) = C 2 D ( X ) D(CX)=C^2D(X) D(CX)=C2D(X)
D ( X + Y ) = D ( X ) + D ( Y ) + 2 E ( X − E [ X ] ) ( Y − E [ Y ] ) D(X+Y)=D(X)+D(Y)+2E{(X-E[X])(Y-E[Y])} D(X+Y)=D(X)+D(Y)+2E(X−E[X])(Y−E[Y])
D ( X + Y ) = D ( X ) + D ( Y ) D(X+Y)=D(X)+D(Y) D(X+Y)=D(X)+D(Y)是 X , Y X,Y X,Y相互独立的必要条件,而不是充要条件
常见随机变量的数学期望和方差总结:
1.二项分布
E ( X ) = p , D ( X ) = p ( 1 − p ) E(X)=p,D(X)=p(1-p) E(X)=p,D(X)=p(1−p)
2.泊松分布
E ( X ) = λ , D ( X ) = λ E(X)=\lambda,D(X)=\lambda E(X)=λ,D(X)=λ
3.几何分布
E ( X ) = 1 p , D ( X ) = 1 − p p 2 E(X)={1\over p},D(X)={1-p\over p^2} E(X)=p1,D(X)=p21−p
4.均匀分布
E ( X ) = a + b 2 , D ( X ) = ( b − a ) 2 12 E(X)={a+b\over 2},D(X)={(b-a)^2\over 12} E(X)=2a+b,D(X)=12(b−a)2
5.指数分布
E ( X ) = 1 λ , D ( X ) = 1 λ 2 E(X)={1\over \lambda},D(X)={1\over \lambda^2} E(X)=λ1,D(X)=λ21
6.正态分布
E ( X ) = μ , D ( X ) = σ 2 E(X)=\mu,D(X)=\sigma^2 E(X)=μ,D(X)=σ2
三、协方差及相关系数
对于二维随机变量,描述 X X X和 Y Y Y之间的相互关系
协方差: C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}=E(XY)-E(X)E(Y) Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}=E(XY)−E(X)E(Y)
性质:
C o v ( X , X ) = D ( X ) Cov(X,X)=D(X) Cov(X,X)=D(X)
C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX,bY)=abCov(X,Y) Cov(aX,bY)=abCov(X,Y)
C o v ( X + Y , Z ) = C o v ( X , Z ) + C o v ( Y , Z ) Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z) Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)
相关系数: ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \rho_{XY}={Cov(X,Y)\over \sqrt{D(X)D(Y)}} ρXY=D(X)D(Y)Cov(X,Y)
∣
ρ
∣
≤
1
|\rho|\leq 1
∣ρ∣≤1,反映了
X
X
X和
Y
Y
Y之间的线性相关程度,=0表示不相关,=1正相关,=-1负相关
柯西-施瓦兹不等式: [ E ( X Y ) ] 2 ≤ E ( X 2 ) E ( Y 2 ) [E(XY)]^2 \leq E(X^2)E(Y^2) [E(XY)]2≤E(X2)E(Y2)当且仅当 P { Y = t 0 X } = 1 P\{Y=t_0X\}=1 P{Y=t0X}=1时取等
X , Y X,Y X,Y独立可以推出不相关,但反之不行,即不相关是独立的必要条件
四、矩、协方差矩阵
E ( X k ) E(X^k) E(Xk)存在,称为 k k k阶矩
E { [ X − E ( X ) ] K } E\{[X-E(X)]^K\} E{[X−E(X)]K}存在,称为 k k k阶中心矩
E ( X k Y l ) E(X^kY^l) E(XkYl)存在,称为 k + l k+l k+l阶混合矩
E { [ X − E ( X ) ] K [ Y − E ( Y ) ] l } E\{[X-E(X)]^K[Y-E(Y)]^l\} E{[X−E(X)]K[Y−E(Y)]l}存在,称为 k + l k+l k+l阶混合中心矩
C o v ( X i , X j ) Cov(X_i,X_j) Cov(Xi,Xj)构成的矩阵称为 ( X 1 , X 2 , . . . X n ) (X_1,X_2,...X_n) (X1,X2,...Xn)的协方差矩阵
跳出二维,为了描述更多维度的相关性!!
第五章 大数定律和中心极限定理
一、大数定律
切比雪夫不等式是主要基础
P { ∣ X − μ ∣ ≥ ϵ } ≤ σ 2 ϵ 2 P\{|X-\mu| \geq \epsilon\}\leq {\sigma^2\over \epsilon^2} P{∣X−μ∣≥ϵ}≤ϵ2σ2
证明:
D ( X ) D(X) D(X)基础定义+分布函数定义
1.切比雪夫大数定律
设 { X k } ( k = 1 , 2 , . . ) \{X_k\}(k=1,2,..) {Xk}(k=1,2,..)为两两相互独立的随机变量序列,且数学期望存在,方差 D ( X k ) ≤ c ( k = 1 , 2 , . . ) D(X_k)\leq c(k=1,2,..) D(Xk)≤c(k=1,2,..),则对于任意的正数 ϵ \epsilon ϵ,有
lim n → + ∞ P { ∣ 1 n ∑ k = 1 n X k − 1 n E ( ∑ k = 1 n X k ) ∣ < ϵ } = 1 \lim_{n \to +\infty}P\{|{1\over n}\sum_{k=1}^{n}X_k-{1\over n}E(\sum_{k=1}^{n}X_k)|<\epsilon\}=1 limn→+∞P{∣n1∑k=1nXk−n1E(∑k=1nXk)∣<ϵ}=1
2.伯努利大数定律
设随机变量 X n ∼ B ( n , p ) , n = 1 , 2 , . . X_n \sim B(n,p),n=1,2,.. Xn∼B(n,p),n=1,2,..,则有
lim n → + ∞ P { ∣ X n n − p ∣ < ϵ } = 1 \lim_{n \to +\infty}P\{|{X_n\over n}-p|<\epsilon\}=1 limn→+∞P{∣nXn−p∣<ϵ}=1
3.辛钦大数定律
设随机变量 X 1 , X 2 . . X n X_1,X_2..X_n X1,X2..Xn独立同分布,具有数学期望 E ( X i ) = μ E(X_i)=\mu E(Xi)=μ,则有
lim n → + ∞ P { ∣ 1 n ∑ i = 1 n X i − μ ∣ < ϵ } = 1 \lim_{n \to +\infty}P\{|{1\over n}\sum_{i=1}^{n}X_i-\mu|<\epsilon\}=1 limn→+∞P{∣n1∑i=1nXi−μ∣<ϵ}=1
注:此时不要求方差存在
二、中心极限定理
高斯指出误差服从正态分布
中心极限定理是找出某些大量的非正态分布的随机变量的和在某些条件下趋于正态分布
1.林德贝格-勒维定理
又称独立同分布的中心极限定理
在实际应用中,只要 n n n充分大,就可以把独立同分布的随机变量 X 1 , X 2 , . . X n X_1,X_2,..X_n X1,X2,..Xn的和近似看作正态随机变量 N ( n μ , n σ 2 ) N(n\mu,n\sigma^2) N(nμ,nσ2)
lim n → + ∞ P { ∑ k = 1 n X k − n μ n σ ≤ x } = Φ ( x ) \lim_{n\to +\infty}P\{{\sum_{k=1}^{n}X_k-n\mu\over \sqrt{n}\sigma}\leq x\}=\Phi(x) limn→+∞P{nσ∑k=1nXk−nμ≤x}=Φ(x)
2.德莫佛-拉普拉斯定理
当 n n n充分大时,二项分布的极限分布就是正态分布,可以近似认为 X ∼ N ( n p , n p ( 1 − p ) ) X\sim N(np,np(1-p)) X∼N(np,np(1−p))
lim n → + ∞ P { X n − n p n p ( 1 − p ) ≤ x } = Φ ( x ) \lim_{n\to +\infty}P\{{X_n-np\over \sqrt{np(1-p)}}\leq x\}=\Phi(x) limn→+∞P{np(1−p)Xn−np≤x}=Φ(x)
第六章 数理统计的基本概念
一、总体与样本
总体、个体、样本的概念
样本的选取一般满足代表性和独立性
二、统计量
构造统计量 ⇒ \Rightarrow ⇒对已有样本进行加工
常见的统计量:
1.样本均值
X ‾ = 1 n ∑ i = 1 n X i \overline{X}={1\over n}\sum_{i=1}^{n}X_i X=n1∑i=1nXi
2.样本方差
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2={1\over n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2 S2=n−11∑i=1n(Xi−X)2
其中, S S S称为样本标准差
3.样本k阶原点矩
A k = 1 n ∑ i = 1 n X i k , ( k = 1 , 2 , . . ) A_k={1\over n}\sum_{i=1}^{n}X_i^k,(k=1,2,..) Ak=n1∑i=1nXik,(k=1,2,..)
4.样本k阶中心矩
B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k , ( k = 1 , 2 , . . ) B_k={1\over n}\sum_{i=1}^{n}(X_i-\overline{X})^k,(k=1,2,..) Bk=n1∑i=1n(Xi−X)k,(k=1,2,..)
若总体的期望和方差存在,即 E ( X ) = μ , D ( X ) = σ 2 E(X)=\mu,D(X)=\sigma^2 E(X)=μ,D(X)=σ2
则 E ( X ‾ ) = μ , D ( X ‾ ) = σ 2 n E(\overline{X})=\mu,D(\overline{X})={\sigma^2\over n} E(X)=μ,D(X)=nσ2
E ( S 2 ) = σ 2 , E ( B 2 ) = n − 1 n σ 2 E(S^2)=\sigma^2,E(B_2)={n-1\over n}\sigma^2 E(S2)=σ2,E(B2)=nn−1σ2
三、抽样分布
全部可能样本的统计量的概率分布叫作抽样分布
几个常见的抽样分布:
1.开方分布
设随机变量 X 1 , X 2 , . . X n X_1,X_2,..X_n X1,X2,..Xn相互独立,且均服从 N ( 0 , 1 ) N(0,1) N(0,1),则称
随机变量 χ 2 = ∑ i = 1 n X i 2 \chi^2=\sum_{i=1}^{n}X_i^2 χ2=∑i=1nXi2服从自由度为 n n n的 χ 2 \chi^2 χ2分布
性质:
E ( χ 2 ) = n , D ( χ 2 ) = 2 n E(\chi^2)=n,D(\chi^2)=2n E(χ2)=n,D(χ2)=2n
上 α \alpha α分位点一般查表获得
若 χ 1 2 \chi_1^2 χ12和 χ 2 2 \chi_2^2 χ22相互独立,则 χ 1 2 + χ 2 2 ∼ χ 2 ( n 1 + n 2 ) \chi_1^2+\chi_2^2 \sim \chi^2(n_1+n_2) χ12+χ22∼χ2(n1+n2)
2.t分布
设随机变量 X X X与 Y Y Y相互独立, X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X \sim N(0,1),Y \sim \chi^2(n) X∼N(0,1),Y∼χ2(n),则称
随机变量 T = X Y / n T={X\over \sqrt{Y/n}} T=Y/nX服从自由度为 n n n的 t t t分布,记作 T ∼ t ( n ) T\sim t(n) T∼t(n)
性质:
分布概率密度函数为偶函数
E ( T ) = 0 , D ( T ) = n n − 2 , ( n > 2 ) E(T)=0,D(T)={n\over n-2},(n>2) E(T)=0,D(T)=n−2n,(n>2)
3.F分布
设随机变量 X X X和 Y Y Y相互独立,且 X ∼ χ 2 ( n 1 ) , Y ∼ χ 2 ( n 2 ) X\sim \chi^2(n_1),Y\sim \chi^2(n_2) X∼χ2(n1),Y∼χ2(n2),则称
随机变量 F = X / n 1 Y / n 2 F={X/n_1\over Y/n_2} F=Y/n2X/n1服从自由度为 ( n 1 , n 2 ) (n_1,n_2) (n1,n2)的 F F F分布,记作 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) F∼F(n1,n2)
其中, n 1 , n 2 n_1,n_2 n1,n2分别称为第一自由度和第二自由度
性质:
若 X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X\sim N(0,1),Y\sim \chi^2(n) X∼N(0,1),Y∼χ2(n),则 n X 2 Y ∼ F ( 1 , n ) {nX^2\over Y}\sim F(1,n) YnX2∼F(1,n)
若 F ∼ F ( m , n ) F\sim F(m,n) F∼F(m,n),则 1 F ∼ F ( n , m ) {1\over F}\sim F(n,m) F1∼F(n,m)
设总体 X X X服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),则
(1)样本均值 X ‾ \overline{X} X与样本方差 S 2 S^2 S2相互独立
(2) χ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^2={(n-1)S^2\over\sigma^2}\sim \chi^2(n-1) χ2=σ2(n−1)S2∼χ2(n−1)
(3) T = X ‾ − μ S / μ ∼ t ( n − 1 ) T={\overline{X}-\mu\over S/\sqrt{\mu}}\sim t(n-1) T=S/μX−μ∼t(n−1)
(4) χ 2 = 1 σ 2 ∑ i = 1 n ( X i − μ ) 2 ∼ χ 2 ( n ) \chi^2={1\over \sigma^2}\sum_{i=1}^{n}(X_i-\mu)^2 \sim \chi^2(n) χ2=σ21∑i=1n(Xi−μ)2∼χ2(n)
第七章 参数估计
统计推断的两个领域:参数估计和假设检验
一、点估计
1.矩估计
若总体 X X X的前 k k k阶矩存在,则有
μ j = E ( X j ) = μ j ( θ 1 , θ 2 , . . , θ k ) , ( j = 1 , 2 , . . . k ) \mu_j=E(X^j)=\mu_j(\theta_1,\theta_2,..,\theta_k),(j=1,2,...k) μj=E(Xj)=μj(θ1,θ2,..,θk),(j=1,2,...k)
各阶矩是未知的,但样本矩 A j = 1 n ∑ i = 1 n X i j ( j = 1 , 2 , . . . k ) A_j={1\over n}\sum_{i=1}^{n}X_i^j(j=1,2,...k) Aj=n1∑i=1nXij(j=1,2,...k)是可以获得的,由辛钦大数定律知,随机样本的原点矩依概率收敛于总体的原点矩,这就启发我们用样本矩替换总体矩,基于这种思想求估计量的方法称为矩估计法。矩估计法是以大样本为应用对象的。
最简单的矩估计法是用一阶样本原点矩来估计总体的期望,用二阶样本中心矩来估计总体的方差。
矩估计法的一般步骤:
针对 n n n个未知参数写出 n n n阶总体矩的含参计算公式
用样本矩代替总体矩
求出估计量,然后再根据需要算出估计值
例:
设总体 X X X的均值 μ \mu μ及方差 σ 2 \sigma^2 σ2都存在且有 σ 2 > 0 \sigma^2>0 σ2>0,但均为未知。又设 X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn是来自总体的样本,求 μ , σ \mu,\sigma μ,σ的矩估计量
解:
μ 1 = E ( X ) = μ \mu_1=E(X)=\mu μ1=E(X)=μ
μ 2 = E ( X 2 ) = D ( X ) + [ E ( X ) ] 2 = σ 2 + μ 2 \mu_2=E(X^2)=D(X)+[E(X)]^2=\sigma^2+\mu^2 μ2=E(X2)=D(X)+[E(X)]2=σ2+μ2
令 μ = A 1 , σ 2 + μ 2 = A 2 \mu=A_1,\sigma^2+\mu^2=A_2 μ=A1,σ2+μ2=A2,解上述方程组,得到
μ ^ = A 1 = X ‾ \widehat{\mu}=A_1=\overline{X} μ =A1=X
σ ^ 2 = A 2 − A 1 2 = 1 n ∑ i = 1 n X i 2 − X ‾ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 \widehat{\sigma}^2=A_2-A_1^2={1\over n}\sum_{i=1}^nX_i^2-\overline{X}^2={1\over n}\sum_{i=1}^{n}(X_i-\overline{X})^2 σ 2=A2−A12=n1∑i=1nXi2−X2=n1∑i=1n(Xi−X)2
用中心矩的概念和中心距的公式可以得到证明:
样本 k k k阶中心距 B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k , ( k = 1 , 2 , . . ) B_k={1\over n}\sum_{i=1}^{n}(X_i-\overline{X})^k,(k=1,2,..) Bk=n1∑i=1n(Xi−X)k,(k=1,2,..)
E { [ X − E ( X ) ] K } E\{[X-E(X)]^K\} E{[X−E(X)]K}存在,称为 k k k阶中心矩
E { [ X − E ( X ) ] 2 } = E ( X 2 ) − [ E ( X ) ] 2 E\{[X-E(X)]^2\}=E(X^2)-[E(X)]^2 E{[X−E(X)]2}=E(X2)−[E(X)]2
2.极大似然估计法
似然函数:反映样本出现的概率。
极大似然估计法:做出一种估计,尽管可能估计错误,但是只有做此估计,对事件发生才有利。即应该让似然函数取得最大值,来完成极大似然估计的一种方法。
L ( θ ) = ∏ i = 1 n P { x i , θ } L(\theta)=\prod_{i=1}^{n}P\{x_i,\theta\} L(θ)=∏i=1nP{xi,θ}
d L ( θ ) d θ = 0 {dL(\theta)\over d\theta}=0 dθdL(θ)=0,这个方程称为似然方程。
d 2 L ( θ ) d θ 2 < 0 {d^2L(\theta)\over d\theta^2}<0 dθ2d2L(θ)<0
3.点估计量的评选标准
无偏性:希望估计值在未知参数真值附近随机摆动。
有效性(方差小):被认为其观察值更密集地分布在真值附近。
一致性(基本要求) :若估计量不具有一致性,即无论样本容量多大,都不能将待估参数估计得足够准确,那么这样的估计量是不可取的。
二、区间估计
对于连续型随机变量,点估计量对于特定样本取到真值的概率为零,这就需要我们不但要了解未知参数的点估计量,更要了解某个范围包含参数真值的可信程度。通常以置信区间的形式给出。
P { θ ‾ < θ < θ ‾ } = 1 − α P\{\underline{\theta}<\theta<\overline{\theta}\}=1-\alpha P{θ<θ<θ}=1−α
称随机区间是参数 θ \theta θ的置信度为 1 − α 1-\alpha 1−α的置信区间
均值 μ \mu μ:
(1) σ 2 \sigma^2 σ2已知, P { X ‾ − σ n z α 2 < μ < X ‾ + σ n z α 2 } = 1 − α P\{\overline{X}-{\sigma\over \sqrt{n}}z_{\alpha\over 2}<\mu<\overline{X}+{\sigma\over \sqrt{n}}z_{\alpha\over 2}\}=1-\alpha P{X−nσz2α<μ<X+nσz2α}=1−α
(2) σ 2 \sigma^2 σ2未知, P { X ‾ − S n t α 2 ( n − 1 ) < μ < X ‾ + S n t α 2 ( n − 1 ) } = 1 − α P\{\overline{X}-{S\over \sqrt{n}}t_{\alpha\over 2}(n-1)<\mu<\overline{X}+{S\over \sqrt{n}}t_{\alpha\over 2}(n-1)\}=1-\alpha P{X−nSt2α(n−1)<μ<X+nSt2α(n−1)}=1−α
方差 σ 2 \sigma^2 σ2:
P { ( n − 1 ) ) S 2 χ α 2 2 ( n − 1 ) < σ 2 < ( n − 1 ) ) S 2 χ 1 − α 2 2 ( n − 1 ) } = 1 − α P\{{(n-1))S^2\over \chi_{\alpha\over 2}^2(n-1)}<\sigma^2<{(n-1))S^2\over \chi_{1-{\alpha\over 2}}^2(n-1)}\}=1-\alpha P{χ2α2(n−1)(n−1))S2<σ2<χ1−2α2(n−1)(n−1))S2}=1−α