概率论

一 事件与概率

概率空间

样本点:在试验中每一个可能出现的结果 ω \omega ω称为样本点。

样本空间:所有样本点的集合 Ω \Omega Ω称为样本空间。

事件:样本点的集合。

频率:重复进行 n n n次试验,事件A在这 n n n次试验中发生了 m m m次,则称 f ( A ) = m n f(A)=\frac{m}{n} f(A)=nm为在这 n n n次试验中A出现的频率。

概率的频率解释:设在相同的条件下重复地进行试验,则随着试验次数地不断增大,事件A的频率在某一确定值附近趋于稳定,这一确定的值称为事件A的概率,记为 P ( A ) P(A) P(A)

性质 1.1.1:设进行 n n n次试验, f ( A ) f(A) f(A)为事件 A A A的频率,则有

  1. f ( A ) ≥ 0 f(A)\ge 0 f(A)0
  2. f ( A ) = 1 f(A)=1 f(A)=1当且仅当A在每次试验中都发生。
  3. A 1 , A 2 , ⋯   , A n A_1,A_2,\cdots,A_n A1,A2,,An互不相容,则 f ( ∪ k = 1 ∞ A k ) = ∑ k = 1 ∞ f ( A k ) f(\cup_{k=1}^{\infty}A_k)=\sum_{k=1}^{\infty}f(A_k) f(k=1Ak)=k=1f(Ak)

事件族:事件的集合称为事件族,全体事件组成的集合记为 F F F

公理 1.1.1

  1. Ω ∈ F \Omega\in F ΩF
  2. A ∈ F A\in F AF,则 A ˉ ∈ F \bar{A}\in F AˉF
  3. A k ∈ F , k = 1 , 2 , ⋯ A_k\in F,k=1,2,\cdots AkF,k=1,2,,则 ∪ k = 1 ∞ A i ∈ F \cup_{k=1}^{\infty}A_i\in F k=1AiF

性质 1.1.2

  1. ∅ ∈ F \empty\in F F
  2. A i ∈ F , k = 1 , 2 , ⋯ A_i\in F,k=1,2,\cdots AiF,k=1,2,,则 ∩ k = 1 ∞ A i ∈ F \cap_{k=1}^{\infty}A_i\in F k=1AiF

公理 1.1.2

  1. P ( A ) ≥ 0 , A ∈ F P(A)\ge0,A\in F P(A)0,AF
  2. P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1
  3. A 1 , A 2 , ⋯ ∈ F A_1,A_2,\cdots\in F A1,A2,F且互不相容,则 P ( ∪ k = 1 ∞ A k ) = ∑ k = 1 ∞ P ( A k ) P(\cup_{k=1}^{\infty}A_k)=\sum_{k=1}^{\infty}P(A_k) P(k=1Ak)=k=1P(Ak)

性质 1.1.3

  1. P ( ∅ ) = 0 P(\empty)=0 P()=0
  2. P ( A ) ≤ 1 , A ∈ F P(A)\le 1,A\in F P(A)1,AF
  3. A 1 , A 2 , ⋯   , A n ∈ F A_1,A_2,\cdots,A_n\in F A1,A2,,AnF且互不相容,则 P ( ∪ k = 1 n A k ) = ∑ k = 1 n P ( A k ) P(\cup_{k=1}^{n}A_k)=\sum_{k=1}^{n}P(A_k) P(k=1nAk)=k=1nP(Ak)

命题 1.1.2

  1. 如果事件列 A 1 , A 2 , ⋯ A_1,A_2,\cdots A1,A2, A k − 1 ⊂ A k , k > 1 A_{k-1}\subset A_k,k>1 Ak1Ak,k>1成立,则有
    lim ⁡ k → ∞ A k = P ( ∪ k = 1 ∞ A k ) \lim_{k\rightarrow\infty}A_k=P(\cup_{k=1}^\infty A_k) klimAk=P(k=1Ak)

  2. 如果事件列 A 1 , A 2 , ⋯ A_1,A_2,\cdots A1,A2, A k ⊂ A k − 1 , k > 1 A_{k}\subset A_{k-1},k>1 AkAk1,k>1成立,则有
    lim ⁡ k → ∞ A k = P ( ∩ k = 1 ∞ A k ) \lim_{k\rightarrow\infty}A_k=P(\cap_{k=1}^\infty A_k) klimAk=P(k=1Ak)

概率空间:满足公理1.1.1和公理1.1.2的三元组 ( Ω , F , P ) (\Omega,F,P) (Ω,F,P)称为概率空间。

古典概型

定义 1.2.1:设样本空间 Ω \Omega Ω n n n个样本点 ω 1 , ω 2 , ⋯   , ω n \omega_1,\omega_2,\cdots,\omega_n ω1,ω2,,ωn,如果事件 A A A包括 m m m个样本点,则A的概率为
P ( A ) = m n P(A)=\frac{m}{n} P(A)=nm
上面的公式可以基于kolmogorov公理体系导出。

几何概型

几何概型是古典概型在几何上的表示。

概率的加法公式

  1. A ∩ B = ∅ A\cap B=\empty AB=,,则 P ( A ∪ B ) = P ( A ) + P ( B ) P(A\cup B)=P(A)+P(B) P(AB)=P(A)+P(B)
  2. P ( A ) + P ( A ˉ ) = 1 P(A)+P(\bar{A})=1 P(A)+P(Aˉ)=1
  3. A ⊂ B A\subset B AB,则 P ( B \ A ) = P ( B ) − P ( A ) , P ( A ) ≤ P ( B ) P(B\backslash A)=P(B)-P(A),P(A)\le P(B) P(B\A)=P(B)P(A),P(A)P(B)
  4. P ( B \ A ) = P ( B ) − P ( A B ) P(B\backslash A)=P(B)-P(AB) P(B\A)=P(B)P(AB)
  5. P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) P(A\cup B)=P(A)+P(B)-P(AB) P(AB)=P(A)+P(B)P(AB)
  6. P ( A 1 ∪ A 2 ∪ ⋯ ∪ A n ) = ∑ 1 ≤ i ≤ n P ( A i ) − ∑ 1 ≤ i < j ≤ n P ( A i A j ) + ⋯ + ( − 1 ) n − 1 P ( A 1 A 2 ⋯ A n ) P(A_1\cup A_2\cup\cdots\cup A_n)=\sum_{1\le i\le n}P(A_i)-\sum_{1\le i<j\le n}P(A_iA_j)+\cdots+(-1)^{n-1}P(A_1A_2\cdots A_n) P(A1A2An)=1inP(Ai)1i<jnP(AiAj)++(1)n1P(A1A2An)

条件概率

定义 1.5.1:设 A , B A,B A,B都是事件,事件 B B B发生的概率 P ( B ) > 0 P(B)> 0 P(B)>0,则称
P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)
为在已知事件B发生的条件下事件A发生的条件概率,当 P ( B ) = 0 P(B)=0 P(B)=0时,条件概率的定义无意义。

条件概率的乘法公式

  1. P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(AB)P(B)
  2. P ( A 1 A 2 ⋯ A n ) = P ( A n ∣ A 1 A 2 ⋯ A n − 1 ) P ( A n − 1 ∣ A 1 A 2 ⋯ A n − 2 ) ⋯ P ( A 2 ∣ A 1 ) P ( A 1 ) P(A_1A_2\cdots A_n)=P(A_n|A_1A_2\cdots A_{n-1})P(A_{n-1}|A_1A_2\cdots A_{n-2})\cdots P(A_2|A_1)P(A_1) P(A1A2An)=P(AnA1A2An1)P(An1A1A2An2)P(A2A1)P(A1)

全概率公式:设事件 B 1 , B 2 , ⋯   , B n B_1,B_2,\cdots,B_n B1,B2,,Bn互不相容,且 ∪ k = 1 n B k = Ω \cup_{k=1}^nB_k=\Omega k=1nBk=Ω P ( B k ) > 0 , i = 1 , 2 , ⋯ P(B_k)>0,i=1,2,\cdots P(Bk)>0,i=1,2,,设A为任意事件,则有
P ( A ) = ∑ k = 1 n P ( B k ) P ( A ∣ B k ) P(A)=\sum_{k=1}^nP(B_k)P(A|B_k) P(A)=k=1nP(Bk)P(ABk)
贝叶斯公式(逆概率公式)
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ k = 1 n P ( B k ) P ( A ∣ B k ) P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{k=1}^nP(B_k)P(A|B_k)} P(BiA)=k=1nP(Bk)P(ABk)P(Bi)P(ABi)
定义 1.5.2(相互独立):若有 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),则称 A , B A,B A,B独立或相互独立。

由上述定义可得:若 P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P(AB)=P(A),则 A , B A,B A,B相互独立;若 P ( B ∣ A ) = P ( B ) P(B|A)=P(B) P(BA)=P(B),则 A , B A,B A,B相互独立。

定义 1.5.3:对于事件 A 1 , A 2 , ⋯   , A n A_1,A_2,\cdots,A_n A1,A2,,An,若对于任意序列 1 ≤ i 1 < i 2 < ⋯ < i k ≤ n 1\le i_1<i_2<\cdots<i_k\le n 1i1<i2<<ikn,都有 P ( A i 1 A i 2 ⋯ A i k ) = P ( A i 1 ) P ( A i 2 ) ⋯ P ( A i k ) P(A_{i_1}A_{i_2}\cdots A_{i_k})=P(A_{i_1})P(A_{i_2})\cdots P(A_{i_k}) P(Ai1Ai2Aik)=P(Ai1)P(Ai2)P(Aik)成立,则称 A 1 , A 2 , ⋯   , A n A_1,A_2,\cdots,A_n A1,A2,,An相互独立。

二 随机变量及其概率分布

随机变量与分布函数

随机变量:一般地,设 ( Ω , F , P ) (\Omega,F,P) (Ω,F,P)是概率空间,则称样本空间 Ω \Omega Ω上的实值函数 X ( ω ) X(\omega) X(ω)为随机变量。

定义 2.1.1(分布函数):设 X X X为随机变量,则称函数
F X ( x ) = P ( ω : X ( ω ) ≤ x ) , x ∈ R F_X(x)=P({\omega:X(\omega)\le x}),x\in R FX(x)=P(ω:X(ω)x),xR
为随机变量 X X X的累积分布函数(cdf)或分布函数。上面的定义常记为
F ( x ) = P ( X ≤ x ) , x ∈ R F(x)=P(X\le x),x\in R F(x)=P(Xx),xR
分布函数的性质

  1. 单调不减性:若 a ≤ b a\le b ab,则 F ( a ) ≤ F ( b ) F(a)\le F(b) F(a)F(b)
  2. 右连续性: lim ⁡ x → a + F ( x ) = F ( a ) \lim_{x\rightarrow a^+}F(x)=F(a) limxa+F(x)=F(a)
  3. lim ⁡ x → a − F ( x ) = P ( X < a ) \lim_{x\rightarrow a^-}F(x)=P(X<a) limxaF(x)=P(X<a)
  4. P ( X = a ) = F ( a ) − F ( a − ) P(X=a)=F(a)-F(a^-) P(X=a)=F(a)F(a)
  5. lim ⁡ x → − ∞ F ( x ) = 0 \lim_{x\rightarrow -\infty}F(x)=0 limxF(x)=0
  6. lim ⁡ x → + ∞ F ( x ) = 1 \lim_{x\rightarrow +\infty}F(x)=1 limx+F(x)=1

离散型随机变量

离散型随机变量:若 X X X只取有限个值 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn或可列个值 x 1 , x 2 , ⋯ x_1,x_2,\cdots x1,x2,,则称随机变量 X X X为离散型随机变量,其表示如下。
P ( X = x k ) = p k , k = 1 , 2 , ⋯   , n P(X=x_k)=p_k,k=1,2,\cdots,n P(X=xk)=pk,k=1,2,,n
且有
∑ k = 1 n p k = 1 \sum_{k=1}^np_k=1 k=1npk=1
伯努利分布:如果随机变量 X X X只取值0和1,有分布列
P ( X = 1 ) = p ,   P ( X = 0 ) = q 0 ≤ p , q ≤ 1 ,   p + q = 1 P(X=1)=p,\ P(X=0)=q\\ 0\le p,q\le 1,\ p+q=1 P(X=1)=p, P(X=0)=q0p,q1, p+q=1
则称 X X X服从参数为p的伯努利分布,记为 X ∽ B ( 1 , p ) X\backsim B(1,p) XB(1,p)

二项分布:如果随机变量 X X X只取值 0 , 1 , 2 , ⋯   , n 0,1,2,\cdots,n 0,1,2,,n且分布列为
P ( x = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , ⋯   , n P(x=k)=C_n^kp^k(1-p)^{n-k},k=0,1,\cdots,n P(x=k)=Cnkpk(1p)nk,k=0,1,,n
则称 X X X服从二项分布 B ( n , p ) B(n,p) B(n,p),记为 X ∽ B ( n , p ) X\backsim B(n,p) XB(n,p)

二项分布是伯努利分布经过独立重复试验后得到的结果。

泊松分布:如果随机变量 X X X只取 0 , 1 , ⋯ 0,1,\cdots 0,1,,且分布列为
P ( X = k ) = e − λ λ k k ! ,   k = 0 , 1 , ⋯ P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!},\ k=0,1,\cdots P(X=k)=k!eλλk, k=0,1,
其中, λ > 0 \lambda>0 λ>0,则称 X X X服从参数为 λ \lambda λ的泊松分布 P ( λ ) P(\lambda) P(λ),记为 X ∽ P ( λ ) X\backsim P(\lambda) XP(λ)

定理 2.2.2:对任意正整数 k k k和正实数 λ \lambda λ,有
lim ⁡ n → ∞ C n k ( λ n ) k ( 1 − λ n ) n − k = e − λ λ k k ! \lim_{n\rightarrow \infty}C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}=\frac{e^{-\lambda}\lambda^k}{k!} nlimCnk(nλ)k(1nλ)nk=k!eλλk
因此,当 n n n充分大, λ = n p \lambda=np λ=np不大时,二项分布可以近似为泊松分布。

超几何分布:设有 N N N个产品,其中有 M M M个是次品,从这些产品中取出 n n n个,即随机变量 X X X为这些产品中的次品数,取值为 s , s + 1 , ⋯   , t s,s+1,\cdots,t s,s+1,,t s = max ⁡ ( 0 , n − ( N − M ) ) , t = min ⁡ ( M , n ) s=\max(0,n-(N-M)),t=\min(M,n) s=max(0,n(NM)),t=min(M,n),且有分布列
P ( X = m ) = C M m C N − M n − m C N n P(X=m)=\frac{C_M^mC_{N-M}^{n-m}}{C_N^n} P(X=m)=CNnCMmCNMnm
二项分布用于有放回抽样,超几何分布用于无放回抽样。

几何分布:如果随机变量 X X X只取正整数值 1 , 2 , ⋯ 1,2,\cdots 1,2,,且分布列为
P ( X = k ) = q k − 1 p ,   k = 1 , 2 , ⋯ p + q = 1 , 0 < p < 1 P(X=k)=q^{k-1}p,\ k=1,2,\cdots\\ p+q=1,0<p<1 P(X=k)=qk1p, k=1,2,p+q=1,0<p<1
则称 X X X服从参数为 p p p的几何分布。

几何分布的无记忆性:如果 X X X服从几何分布,则对于任意正整数 m , n m,n m,n,都有
P ( X > m + n ∣ X > m ) = P ( X > n ) P(X>m+n|X>m)=P(X>n) P(X>m+nX>m)=P(X>n)

连续型随机变量

定义 2.3.1:设 X X X为随机变量,如果存在非负可积函数 P X ( x ) P_X(x) PX(x),使得对任意实数b都有
P ( X ≤ b ) = ∫ − ∞ b p X ( x ) d x P(X\le b)=\int_{-\infty}^{b}p_X(x)dx P(Xb)=bpX(x)dx
则称 X X X为连续型随机变量,称 P X ( x ) P_X(x) PX(x) X X X的概率密度函数(pdf)或概率密度,密度函数或密度。

可以在有限个点上不定义 p ( x ) p(x) p(x)的值,且改变有限个点的值得到的密度函数 p ˉ ( x ) \bar{p}(x) pˉ(x)依然是密度函数。

命题 2.3.1:函数 p ( x ) p(x) p(x)为某个连续型随机变量 X X X的密度的充分必要条件是

  1. p ( x ) ≥ 0 p(x)\ge 0 p(x)0
  2. ∫ − ∞ + ∞ p ( x ) d x = 1 \int_{-\infty}^{+\infty}p(x)dx=1 +p(x)dx=1

命题 2.3.2 X X X是连续性随机变量,则 X X X的分布函数连续且对任意实数 a a a,有 P ( X = a ) = 0 P(X=a)=0 P(X=a)=0

推论 2.3.1

  1. P ( X > a ) = ∫ a + ∞ p ( x ) d x P(X>a)=\int_a^{+\infty}p(x)dx P(X>a)=a+p(x)dx
  2. P ( X < b ) = ∫ − ∞ b p ( x ) d x P(X<b)=\int_{-\infty}^bp(x)dx P(X<b)=bp(x)dx
  3. P ( a < X ≤ b ) = ∫ a b p ( x ) d x P(a<X\le b)=\int_a^bp(x)dx P(a<Xb)=abp(x)dx

分布函数和密度函数的关系 p ( x ) = F ′ ( x ) p(x)=F'(x) p(x)=F(x)

均匀分布:设 a , b a,b a,b为实数, a < b a<b a<b,如果随机变量 X X X有密度函数
p ( x ) = { 1 b − a ,   x ∈ [ a , b ] 0 ,   x < a 或 x > b p(x)=\begin{cases} \frac{1}{b-a},\ x\in[a,b]\\ 0,\ x<a或x>b \end{cases} p(x)={ba1, x[a,b]0, x<ax>b
则称 X X X服从 [ a , b ] [a,b] [a,b]上的均匀分布 U ( a , b ) U(a,b) U(a,b)

指数分布:如果随机变量 X X X有密度函数
p ( x ) = { λ e − λ x ,   x ≥ 0 0 ,   x < 0 p(x)=\begin{cases} \lambda e^{-\lambda x},\ x\ge 0\\ 0,\ x <0 \end{cases} p(x)={λeλx, x00, x<0
其中 λ > 0 \lambda>0 λ>0,则称 X X X服从参数为 λ \lambda λ的指数分布 E ( λ ) E(\lambda) E(λ)

正态分布:如果随机变量 X X X有密度函数
p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 p(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{\frac{-(x-\mu)^2}{2\sigma^2}} p(x)=2πσ 1e2σ2(xμ)2
其中 σ > 0 \sigma>0 σ>0,则称 X X X服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) N ( 0 , 1 ) N(0,1) N(0,1)被称为标准正态分布。

随机向量及其分布

n维随机变量 X ( ω ) = ( X 1 ( ω ) , X 2 ( ω ) , … , X n ( ω ) ) X(\omega)=(X_1(\omega),X_2(\omega),\dots,X_n(\omega)) X(ω)=(X1(ω),X2(ω),,Xn(ω))

定义 2.4.1(联合分布函数):设 ( X , Y ) (X,Y) (X,Y)为二维随机向量,称二元函数
F ( x , y ) = P ( X ≤ x , Y ≤ y ) F(x,y)=P(X\le x, Y\le y) F(x,y)=P(Xx,Yy)
( X , Y ) (X,Y) (X,Y)的联合分布函数。

定义 2.4.2(联合分布函数):设 X = ( X 1 , X 2 , ⋯   , X n ) X=(X_1,X_2,\cdots,X_n) X=(X1,X2,,Xn) n n n维随机向量,称 n n n元函数
F ( x 1 , x 2 , ⋯   , x n ) = P ( X 1 ≤ x 1 , X 2 ≤ x 2 , ⋯   , X n ≤ x n ) F(x_1,x_2,\cdots,x_n)=P(X_1\le x_1,X_2\le x_2,\cdots,X_n\le x_n) F(x1,x2,,xn)=P(X1x1,X2x2,,Xnxn)
X X X的联合分布函数。

边缘分布:设 F ( x , y ) F(x,y) F(x,y)是二维随机向量 ( X , Y ) (X,Y) (X,Y)的联合分布函数,则有
F X ( x ) = P ( X ≤ x , Y < + ∞ ) = lim ⁡ y → + ∞ F ( x , y ) F Y ( y ) = P ( X < + ∞ , Y ≤ y ) = lim ⁡ x → + ∞ F ( x , y ) F_X(x)=P(X\le x,Y<+\infty)=\lim_{y\rightarrow+\infty}F(x,y)\\ F_Y(y)=P(X < +\infty,Y\le y)=\lim_{x\rightarrow+\infty}F(x,y) FX(x)=P(Xx,Y<+)=y+limF(x,y)FY(y)=P(X<+,Yy)=x+limF(x,y)
二维离散型随机向量:如果 X , Y X,Y X,Y均为离散型随机变量,则称 ( X , Y ) (X,Y) (X,Y)为二维离散型随机向量,其分布列为
P { ( X , Y ) = ( x i , y j ) } = p i j P\{(X,Y)=(x_i,y_j)\}=p_{ij} P{(X,Y)=(xi,yj)}=pij
边缘分布列:若随机向量 ( X , Y ) (X,Y) (X,Y)有联合分布列,则 X , Y X,Y X,Y的边缘分布列分别是
P ( X = x i ) = ∑ j = 1 ∞ P ( X = x i , Y = y j ) , i = 1 , 2 , ⋯ P ( Y = y j ) = ∑ i = 1 ∞ P ( X = x i , Y = y j ) , j = 1 , 2 , ⋯ P(X=x_i)=\sum_{j=1}^{\infty}P(X=x_i,Y=y_j),i=1,2,\cdots\\ P(Y=y_j)=\sum_{i=1}^{\infty}P(X=x_i,Y=y_j),j=1,2,\cdots P(X=xi)=j=1P(X=xi,Y=yj),i=1,2,P(Y=yj)=i=1P(X=xi,Y=yj),j=1,2,
联合概率密度函数:设 ( X , Y ) (X,Y) (X,Y)为二维随机向量,若存在非负可积函数 p ( x , y ) p(x,y) p(x,y)使得对于任意实数 b 1 , b 2 b_1,b_2 b1,b2,都有
P ( X ≤ b 1 , Y ≤ b 2 ) = ∫ − ∞ b 2 ∫ − ∞ b 1 p ( x , y ) d x d y P(X\le b_1,Y\le b_2)=\int_{-\infty}^{b_2}\int_{-\infty}^{b_1}p(x,y)dxdy P(Xb1,Yb2)=b2b1p(x,y)dxdy
则称 ( X , Y ) (X,Y) (X,Y)为连续型随机向量,称 p ( x , y ) p(x,y) p(x,y)为联合概率密度函数。

联合分布函数
F ( x , y ) = ∫ − ∞ y ∫ − ∞ x P ( s , t ) d s d t F(x,y)=\int_{-\infty}^y\int_{-\infty}^xP(s,t)dsdt F(x,y)=yxP(s,t)dsdt
边缘密度函数
p X ( x ) = ∫ − ∞ + ∞ p ( x , y ) d y p Y ( y ) = ∫ − ∞ + ∞ p ( x , y ) d x p_X(x)=\int_{-\infty}^{+\infty}p(x,y)dy\\ p_Y(y)=\int_{-\infty}^{+\infty}p(x,y)dx pX(x)=+p(x,y)dypY(y)=+p(x,y)dx
定义 2.5.1(随机变量的独立性):设随机向量 ( X , Y ) (X,Y) (X,Y)的联合分布函数为 F ( x , y ) F(x,y) F(x,y) X X X的分布函数为 F X ( x ) F_X(x) FX(x) Y Y Y的分布函数为 F Y ( y ) F_Y(y) FY(y),如果
F ( x , y ) = F X ( x ) F Y ( y ) F(x,y)=F_X(x)F_Y(y) F(x,y)=FX(x)FY(y)
则称随机变量 X , Y X,Y X,Y是独立的。

定理 2.5.1:设离散型随机向量 ( X , Y ) (X,Y) (X,Y) X X X取值于 { x 1 , x 2 , ⋯   } \{x_1,x_2,\cdots\} {x1,x2,} Y Y Y取值于 { y 1 , y 2 , ⋯   } \{y_1,y_2,\cdots\} {y1,y2,},则 X , Y X,Y X,Y相互独立的充要条件是对于任意的 x i , y j x_i,y_j xi,yj都有
P ( X = x i , Y = y j ) = P ( X = x i ) P ( Y = y j ) P(X=x_i,Y=y_j)=P(X=x_i)P(Y=y_j) P(X=xi,Y=yj)=P(X=xi)P(Y=yj)
定理 2.5.2:设 ( X , Y ) (X,Y) (X,Y)为连续型随机向量, X X X的密度为 P X ( x ) P_X(x) PX(x) Y Y Y的密度为 P Y ( y ) P_Y(y) PY(y),则 X , Y X,Y X,Y相互独立的充要条件是
p ( x , y ) = p X ( x ) p Y ( y ) p(x,y)=p_X(x)p_Y(y) p(x,y)=pX(x)pY(y)

三 随机变量的数字特征

期望

期望:期望可以被解释为随机变量的取值的加权平均。

定义 3.1.1:设离散型随机变量 X X X的分布列为
P ( X = x k ) = p k ,   k = 1 , 2 , ⋯ P(X=x_k)=p_k,\ k=1,2,\cdots P(X=xk)=pk, k=1,2,

∑ k ∣ x k ∣ P ( X = x k ) < + ∞ \sum_k|x_k|P(X=x_k)<+\infty kxkP(X=xk)<+
则记
E X = ∑ k x k P ( X = x k ) = ∑ k x k p k EX=\sum_kx_kP(X=x_k)=\sum_kx_kp_k EX=kxkP(X=xk)=kxkpk
并称 X X X的期望存在或称 E X EX EX存在,称 E X EX EX X X X的期望。

定义 3.1.2:设 X X X为连续型随机变量,有密度 p ( x ) p(x) p(x),若
∫ − ∞ + ∞ ∣ x ∣ p ( x ) d x < + ∞ \int_{-\infty}^{+\infty}|x|p(x)dx<+\infty +xp(x)dx<+
则记
E X = ∫ − ∞ + ∞ x p ( x ) d x EX=\int_{-\infty}^{+\infty}xp(x)dx EX=+xp(x)dx
并称 X X X的期望存在或称 E X EX EX存在,称 E X EX EX X X X的期望。

期望的性质:设 X X X为随机变量, a , b , c a,b,c a,b,c为常数

  1. 把常数c看作只取值c的离散型随机变量,则
    E c = c Ec=c Ec=c

  2. E ( a X + b ) = a E ( X ) + b E(aX+b)=aE(X)+b E(aX+b)=aE(X)+b

  3. P ( X ≥ 0 ) = 1 P(X\ge 0)=1 P(X0)=1,则 E ( X ) ≥ 0 E(X)\ge0 E(X)0

定理 3.1.1:设 X X X是随机变量, f ( x ) f(x) f(x)是实值函数

  1. X X X为离散型,有分布列 P ( X = x k ) = p k , k = 1 , 2 , ⋯ P(X=x_k)=p_k,k=1,2,\cdots P(X=xk)=pk,k=1,2,且有 ∑ k ∣ f ( x k ) ∣ p k < + ∞ \sum_k|f(x_k)|p_k<+\infty kf(xk)pk<+,则
    E ( f ( X ) ) = ∑ k f ( x k ) p k E(f(X))=\sum_kf(x_k)p_k E(f(X))=kf(xk)pk

  2. X X X为连续型,有密度 p X ( x ) p_X(x) pX(x) ∫ − ∞ + ∞ ∣ f ( x ) ∣ P X ( x ) d x < + ∞ \int_{-\infty}^{+\infty}|f(x)|P_X(x)dx<+\infty +f(x)PX(x)dx<+,则
    E ( f ( x ) ) = ∫ − ∞ + ∞ f ( x ) p X ( x ) d x E(f(x))=\int_{-\infty}^{+\infty}f(x)p_X(x)dx E(f(x))=+f(x)pX(x)dx

定理 3.1.2:设 ( X , Y ) (X,Y) (X,Y)为随机向量, f ( x , y ) f(x,y) f(x,y)是二元实值函数

  1. ( X , Y ) (X,Y) (X,Y)为离散型随机向量,有分布列 P ( X = x i , Y = y j ) = p i j , i = 1 , 2 , ⋯   , j = 1 , 2 , ⋯ P(X=x_i,Y=y_j)=p_{ij},i=1,2,\cdots,j=1,2,\cdots P(X=xi,Y=yj)=pij,i=1,2,,j=1,2,

    ∑ i , j ∣ f ( x i , y j ) ∣ P ( X = x i , Y = y j ) < + ∞ \sum_{i,j}|f(x_i,y_j)|P(X=x_i,Y=y_j)<+\infty i,jf(xi,yj)P(X=xi,Y=yj)<+,则
    E f ( X , Y ) = ∑ i , j f ( x i , y j ) P ( X = x i , Y = y j ) Ef(X,Y)=\sum_{i,j}f(x_i,y_j)P(X=x_i,Y=y_j) Ef(X,Y)=i,jf(xi,yj)P(X=xi,Y=yj)

  2. ( X , Y ) (X,Y) (X,Y)为连续型,有密度 p ( x , y ) , ∫ − ∞ + ∞ ∫ − ∞ + ∞ ∣ f ( x , y ) ∣ p ( x , y ) d x d y < + ∞ p(x,y),\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}|f(x,y)|p(x,y)dxdy<+\infty p(x,y),++f(x,y)p(x,y)dxdy<+,则
    E f ( X , Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( x , y ) p ( x , y ) d x d y = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( x , y ) d F ( x , y ) Ef(X,Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(x,y)p(x,y)dxdy=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(x,y)dF(x,y) Ef(X,Y)=++f(x,y)p(x,y)dxdy=++f(x,y)dF(x,y)

命题 3.1.3:若 X , Y X,Y X,Y相互独立,则
E ( X Y ) = E X ∗ E Y E(XY)=EX*EY E(XY)=EXEY

方差

定义 3.2.1:设随机变量 X X X的期望存在,若随机变量 ( X − E X ) 2 (X-EX)^2 (XEX)2的期望存在,则记
D X = E ( X − E X ) 2 DX=E(X-EX)^2 DX=E(XEX)2
并且称 X X X的方差存在或称 D X DX DX存在,称 D X DX DX X X X的方差。

对于离散型随机变量, D X DX DX
D X = ∑ k ( x k − E X ) 2 p k DX=\sum_k(x_k-EX)^2p_k DX=k(xkEX)2pk
对于连续型随机变量, D X DX DX
D X = ∫ − ∞ + ∞ ( x − E X ) 2 p ( x ) d x DX=\int_{-\infty}^{+\infty}(x-EX)^2p(x)dx DX=+(xEX)2p(x)dx
方差的计算可以简化为
D X = E X 2 − ( E X ) 2 DX=EX^2-(EX)^2 DX=EX2(EX)2
定理 3.2.1:设 X , Y X,Y X,Y是随机变量, a , c a,c a,c是实常数,则

  1. D ( c ) = 0 D(c)=0 D(c)=0
  2. D ( a X ) = a 2 D X D(aX)=a^2DX D(aX)=a2DX
  3. D ( X + c ) = D X D(X+c)=DX D(X+c)=DX
  4. 如果 X , Y X,Y X,Y独立,则 D ( X + Y ) = D ( X ) + D ( Y ) D(X+Y)=D(X)+D(Y) D(X+Y)=D(X)+D(Y)
  5. D X ≥ 0 DX\ge 0 DX0

四 统计估计

似然函数:设总体 X X X的密度函数为 p ( x ; θ ) p(x;\theta) p(x;θ),其中 θ = ( θ 1 , θ 2 , ⋯   , θ m ) \theta=(\theta_1,\theta_2,\cdots,\theta_m) θ=(θ1,θ2,,θm)为未知参数, X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn为来自总体的样本,其观测值为 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn,令
L = L ( x 1 , x 2 , ⋯   , x n ; θ ) = p ( x 1 ; θ ) p ( x 2 ; θ ) ⋯ p ( x n ; θ ) L=L(x_1,x_2,\cdots,x_n;\theta)=p(x_1;\theta)p(x_2;\theta)\cdots p(x_n;\theta) L=L(x1,x2,,xn;θ)=p(x1;θ)p(x2;θ)p(xn;θ)
θ \theta θ固定时, L L L是随机向量 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,,Xn)的密度函数;当 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn固定时, L L L θ \theta θ的函数,称为样本的似然函数。

最大似然估计:如果一个事件发生了,则把使得这个事件发生具有最大概率的参数 θ ^ \hat{\theta} θ^来作为未知参数 θ \theta θ的估计。如果似然函数 L ( x 1 , x 2 , ⋯   , x n ; θ ) L(x_1,x_2,\cdots,x_n;\theta) L(x1,x2,,xn;θ) θ = θ ^ \theta=\hat\theta θ=θ^处达到最大值,则称 θ ^ \hat{\theta} θ^是参数 θ \theta θ的最大似然估计。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值