一 事件与概率
概率空间
样本点:在试验中每一个可能出现的结果 ω \omega ω称为样本点。
样本空间:所有样本点的集合 Ω \Omega Ω称为样本空间。
事件:样本点的集合。
频率:重复进行 n n n次试验,事件A在这 n n n次试验中发生了 m m m次,则称 f ( A ) = m n f(A)=\frac{m}{n} f(A)=nm为在这 n n n次试验中A出现的频率。
概率的频率解释:设在相同的条件下重复地进行试验,则随着试验次数地不断增大,事件A的频率在某一确定值附近趋于稳定,这一确定的值称为事件A的概率,记为 P ( A ) P(A) P(A)。
性质 1.1.1:设进行 n n n次试验, f ( A ) f(A) f(A)为事件 A A A的频率,则有
- f ( A ) ≥ 0 f(A)\ge 0 f(A)≥0
- f ( A ) = 1 f(A)=1 f(A)=1当且仅当A在每次试验中都发生。
- 设 A 1 , A 2 , ⋯ , A n A_1,A_2,\cdots,A_n A1,A2,⋯,An互不相容,则 f ( ∪ k = 1 ∞ A k ) = ∑ k = 1 ∞ f ( A k ) f(\cup_{k=1}^{\infty}A_k)=\sum_{k=1}^{\infty}f(A_k) f(∪k=1∞Ak)=∑k=1∞f(Ak)
事件族:事件的集合称为事件族,全体事件组成的集合记为 F F F。
公理 1.1.1:
- Ω ∈ F \Omega\in F Ω∈F
- 若 A ∈ F A\in F A∈F,则 A ˉ ∈ F \bar{A}\in F Aˉ∈F
- 若 A k ∈ F , k = 1 , 2 , ⋯ A_k\in F,k=1,2,\cdots Ak∈F,k=1,2,⋯,则 ∪ k = 1 ∞ A i ∈ F \cup_{k=1}^{\infty}A_i\in F ∪k=1∞Ai∈F
性质 1.1.2:
- ∅ ∈ F \empty\in F ∅∈F
- 若 A i ∈ F , k = 1 , 2 , ⋯ A_i\in F,k=1,2,\cdots Ai∈F,k=1,2,⋯,则 ∩ k = 1 ∞ A i ∈ F \cap_{k=1}^{\infty}A_i\in F ∩k=1∞Ai∈F。
公理 1.1.2
- P ( A ) ≥ 0 , A ∈ F P(A)\ge0,A\in F P(A)≥0,A∈F
- P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1
- 若 A 1 , A 2 , ⋯ ∈ F A_1,A_2,\cdots\in F A1,A2,⋯∈F且互不相容,则 P ( ∪ k = 1 ∞ A k ) = ∑ k = 1 ∞ P ( A k ) P(\cup_{k=1}^{\infty}A_k)=\sum_{k=1}^{\infty}P(A_k) P(∪k=1∞Ak)=∑k=1∞P(Ak)
性质 1.1.3
- P ( ∅ ) = 0 P(\empty)=0 P(∅)=0
- P ( A ) ≤ 1 , A ∈ F P(A)\le 1,A\in F P(A)≤1,A∈F
- 若 A 1 , A 2 , ⋯ , A n ∈ F A_1,A_2,\cdots,A_n\in F A1,A2,⋯,An∈F且互不相容,则 P ( ∪ k = 1 n A k ) = ∑ k = 1 n P ( A k ) P(\cup_{k=1}^{n}A_k)=\sum_{k=1}^{n}P(A_k) P(∪k=1nAk)=∑k=1nP(Ak)
命题 1.1.2
-
如果事件列 A 1 , A 2 , ⋯ A_1,A_2,\cdots A1,A2,⋯有 A k − 1 ⊂ A k , k > 1 A_{k-1}\subset A_k,k>1 Ak−1⊂Ak,k>1成立,则有
lim k → ∞ A k = P ( ∪ k = 1 ∞ A k ) \lim_{k\rightarrow\infty}A_k=P(\cup_{k=1}^\infty A_k) k→∞limAk=P(∪k=1∞Ak) -
如果事件列 A 1 , A 2 , ⋯ A_1,A_2,\cdots A1,A2,⋯有 A k ⊂ A k − 1 , k > 1 A_{k}\subset A_{k-1},k>1 Ak⊂Ak−1,k>1成立,则有
lim k → ∞ A k = P ( ∩ k = 1 ∞ A k ) \lim_{k\rightarrow\infty}A_k=P(\cap_{k=1}^\infty A_k) k→∞limAk=P(∩k=1∞Ak)
概率空间:满足公理1.1.1和公理1.1.2的三元组 ( Ω , F , P ) (\Omega,F,P) (Ω,F,P)称为概率空间。
古典概型
定义 1.2.1:设样本空间
Ω
\Omega
Ω有
n
n
n个样本点
ω
1
,
ω
2
,
⋯
,
ω
n
\omega_1,\omega_2,\cdots,\omega_n
ω1,ω2,⋯,ωn,如果事件
A
A
A包括
m
m
m个样本点,则A的概率为
P
(
A
)
=
m
n
P(A)=\frac{m}{n}
P(A)=nm
上面的公式可以基于kolmogorov公理体系导出。
几何概型
几何概型是古典概型在几何上的表示。
概率的加法公式
- 若 A ∩ B = ∅ A\cap B=\empty A∩B=∅,,则 P ( A ∪ B ) = P ( A ) + P ( B ) P(A\cup B)=P(A)+P(B) P(A∪B)=P(A)+P(B)。
- P ( A ) + P ( A ˉ ) = 1 P(A)+P(\bar{A})=1 P(A)+P(Aˉ)=1
- 若 A ⊂ B A\subset B A⊂B,则 P ( B \ A ) = P ( B ) − P ( A ) , P ( A ) ≤ P ( B ) P(B\backslash A)=P(B)-P(A),P(A)\le P(B) P(B\A)=P(B)−P(A),P(A)≤P(B)
- P ( B \ A ) = P ( B ) − P ( A B ) P(B\backslash A)=P(B)-P(AB) P(B\A)=P(B)−P(AB)
- P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) P(A\cup B)=P(A)+P(B)-P(AB) P(A∪B)=P(A)+P(B)−P(AB)
- P ( A 1 ∪ A 2 ∪ ⋯ ∪ A n ) = ∑ 1 ≤ i ≤ n P ( A i ) − ∑ 1 ≤ i < j ≤ n P ( A i A j ) + ⋯ + ( − 1 ) n − 1 P ( A 1 A 2 ⋯ A n ) P(A_1\cup A_2\cup\cdots\cup A_n)=\sum_{1\le i\le n}P(A_i)-\sum_{1\le i<j\le n}P(A_iA_j)+\cdots+(-1)^{n-1}P(A_1A_2\cdots A_n) P(A1∪A2∪⋯∪An)=∑1≤i≤nP(Ai)−∑1≤i<j≤nP(AiAj)+⋯+(−1)n−1P(A1A2⋯An)
条件概率
定义 1.5.1:设
A
,
B
A,B
A,B都是事件,事件
B
B
B发生的概率
P
(
B
)
>
0
P(B)> 0
P(B)>0,则称
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
P(A|B)=\frac{P(AB)}{P(B)}
P(A∣B)=P(B)P(AB)
为在已知事件B发生的条件下事件A发生的条件概率,当
P
(
B
)
=
0
P(B)=0
P(B)=0时,条件概率的定义无意义。
条件概率的乘法公式:
- P ( A B ) = P ( A ∣ B ) P ( B ) P(AB)=P(A|B)P(B) P(AB)=P(A∣B)P(B)
- P ( A 1 A 2 ⋯ A n ) = P ( A n ∣ A 1 A 2 ⋯ A n − 1 ) P ( A n − 1 ∣ A 1 A 2 ⋯ A n − 2 ) ⋯ P ( A 2 ∣ A 1 ) P ( A 1 ) P(A_1A_2\cdots A_n)=P(A_n|A_1A_2\cdots A_{n-1})P(A_{n-1}|A_1A_2\cdots A_{n-2})\cdots P(A_2|A_1)P(A_1) P(A1A2⋯An)=P(An∣A1A2⋯An−1)P(An−1∣A1A2⋯An−2)⋯P(A2∣A1)P(A1)
全概率公式:设事件
B
1
,
B
2
,
⋯
,
B
n
B_1,B_2,\cdots,B_n
B1,B2,⋯,Bn互不相容,且
∪
k
=
1
n
B
k
=
Ω
\cup_{k=1}^nB_k=\Omega
∪k=1nBk=Ω,
P
(
B
k
)
>
0
,
i
=
1
,
2
,
⋯
P(B_k)>0,i=1,2,\cdots
P(Bk)>0,i=1,2,⋯,设A为任意事件,则有
P
(
A
)
=
∑
k
=
1
n
P
(
B
k
)
P
(
A
∣
B
k
)
P(A)=\sum_{k=1}^nP(B_k)P(A|B_k)
P(A)=k=1∑nP(Bk)P(A∣Bk)
贝叶斯公式(逆概率公式):
P
(
B
i
∣
A
)
=
P
(
B
i
)
P
(
A
∣
B
i
)
∑
k
=
1
n
P
(
B
k
)
P
(
A
∣
B
k
)
P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{k=1}^nP(B_k)P(A|B_k)}
P(Bi∣A)=∑k=1nP(Bk)P(A∣Bk)P(Bi)P(A∣Bi)
定义 1.5.2(相互独立):若有
P
(
A
B
)
=
P
(
A
)
P
(
B
)
P(AB)=P(A)P(B)
P(AB)=P(A)P(B),则称
A
,
B
A,B
A,B独立或相互独立。
由上述定义可得:若 P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P(A∣B)=P(A),则 A , B A,B A,B相互独立;若 P ( B ∣ A ) = P ( B ) P(B|A)=P(B) P(B∣A)=P(B),则 A , B A,B A,B相互独立。
定义 1.5.3:对于事件 A 1 , A 2 , ⋯ , A n A_1,A_2,\cdots,A_n A1,A2,⋯,An,若对于任意序列 1 ≤ i 1 < i 2 < ⋯ < i k ≤ n 1\le i_1<i_2<\cdots<i_k\le n 1≤i1<i2<⋯<ik≤n,都有 P ( A i 1 A i 2 ⋯ A i k ) = P ( A i 1 ) P ( A i 2 ) ⋯ P ( A i k ) P(A_{i_1}A_{i_2}\cdots A_{i_k})=P(A_{i_1})P(A_{i_2})\cdots P(A_{i_k}) P(Ai1Ai2⋯Aik)=P(Ai1)P(Ai2)⋯P(Aik)成立,则称 A 1 , A 2 , ⋯ , A n A_1,A_2,\cdots,A_n A1,A2,⋯,An相互独立。
二 随机变量及其概率分布
随机变量与分布函数
随机变量:一般地,设 ( Ω , F , P ) (\Omega,F,P) (Ω,F,P)是概率空间,则称样本空间 Ω \Omega Ω上的实值函数 X ( ω ) X(\omega) X(ω)为随机变量。
定义 2.1.1(分布函数):设
X
X
X为随机变量,则称函数
F
X
(
x
)
=
P
(
ω
:
X
(
ω
)
≤
x
)
,
x
∈
R
F_X(x)=P({\omega:X(\omega)\le x}),x\in R
FX(x)=P(ω:X(ω)≤x),x∈R
为随机变量
X
X
X的累积分布函数(cdf)或分布函数。上面的定义常记为
F
(
x
)
=
P
(
X
≤
x
)
,
x
∈
R
F(x)=P(X\le x),x\in R
F(x)=P(X≤x),x∈R
分布函数的性质:
- 单调不减性:若 a ≤ b a\le b a≤b,则 F ( a ) ≤ F ( b ) F(a)\le F(b) F(a)≤F(b)
- 右连续性: lim x → a + F ( x ) = F ( a ) \lim_{x\rightarrow a^+}F(x)=F(a) limx→a+F(x)=F(a)
- lim x → a − F ( x ) = P ( X < a ) \lim_{x\rightarrow a^-}F(x)=P(X<a) limx→a−F(x)=P(X<a)
- P ( X = a ) = F ( a ) − F ( a − ) P(X=a)=F(a)-F(a^-) P(X=a)=F(a)−F(a−)
- lim x → − ∞ F ( x ) = 0 \lim_{x\rightarrow -\infty}F(x)=0 limx→−∞F(x)=0
- lim x → + ∞ F ( x ) = 1 \lim_{x\rightarrow +\infty}F(x)=1 limx→+∞F(x)=1
离散型随机变量
离散型随机变量:若
X
X
X只取有限个值
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn或可列个值
x
1
,
x
2
,
⋯
x_1,x_2,\cdots
x1,x2,⋯,则称随机变量
X
X
X为离散型随机变量,其表示如下。
P
(
X
=
x
k
)
=
p
k
,
k
=
1
,
2
,
⋯
,
n
P(X=x_k)=p_k,k=1,2,\cdots,n
P(X=xk)=pk,k=1,2,⋯,n
且有
∑
k
=
1
n
p
k
=
1
\sum_{k=1}^np_k=1
k=1∑npk=1
伯努利分布:如果随机变量
X
X
X只取值0和1,有分布列
P
(
X
=
1
)
=
p
,
P
(
X
=
0
)
=
q
0
≤
p
,
q
≤
1
,
p
+
q
=
1
P(X=1)=p,\ P(X=0)=q\\ 0\le p,q\le 1,\ p+q=1
P(X=1)=p, P(X=0)=q0≤p,q≤1, p+q=1
则称
X
X
X服从参数为p的伯努利分布,记为
X
∽
B
(
1
,
p
)
X\backsim B(1,p)
X∽B(1,p)
二项分布:如果随机变量
X
X
X只取值
0
,
1
,
2
,
⋯
,
n
0,1,2,\cdots,n
0,1,2,⋯,n且分布列为
P
(
x
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
⋯
,
n
P(x=k)=C_n^kp^k(1-p)^{n-k},k=0,1,\cdots,n
P(x=k)=Cnkpk(1−p)n−k,k=0,1,⋯,n
则称
X
X
X服从二项分布
B
(
n
,
p
)
B(n,p)
B(n,p),记为
X
∽
B
(
n
,
p
)
X\backsim B(n,p)
X∽B(n,p)
二项分布是伯努利分布经过独立重复试验后得到的结果。
泊松分布:如果随机变量
X
X
X只取
0
,
1
,
⋯
0,1,\cdots
0,1,⋯,且分布列为
P
(
X
=
k
)
=
e
−
λ
λ
k
k
!
,
k
=
0
,
1
,
⋯
P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!},\ k=0,1,\cdots
P(X=k)=k!e−λλk, k=0,1,⋯
其中,
λ
>
0
\lambda>0
λ>0,则称
X
X
X服从参数为
λ
\lambda
λ的泊松分布
P
(
λ
)
P(\lambda)
P(λ),记为
X
∽
P
(
λ
)
X\backsim P(\lambda)
X∽P(λ)
定理 2.2.2:对任意正整数
k
k
k和正实数
λ
\lambda
λ,有
lim
n
→
∞
C
n
k
(
λ
n
)
k
(
1
−
λ
n
)
n
−
k
=
e
−
λ
λ
k
k
!
\lim_{n\rightarrow \infty}C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}=\frac{e^{-\lambda}\lambda^k}{k!}
n→∞limCnk(nλ)k(1−nλ)n−k=k!e−λλk
因此,当
n
n
n充分大,
λ
=
n
p
\lambda=np
λ=np不大时,二项分布可以近似为泊松分布。
超几何分布:设有
N
N
N个产品,其中有
M
M
M个是次品,从这些产品中取出
n
n
n个,即随机变量
X
X
X为这些产品中的次品数,取值为
s
,
s
+
1
,
⋯
,
t
s,s+1,\cdots,t
s,s+1,⋯,t,
s
=
max
(
0
,
n
−
(
N
−
M
)
)
,
t
=
min
(
M
,
n
)
s=\max(0,n-(N-M)),t=\min(M,n)
s=max(0,n−(N−M)),t=min(M,n),且有分布列
P
(
X
=
m
)
=
C
M
m
C
N
−
M
n
−
m
C
N
n
P(X=m)=\frac{C_M^mC_{N-M}^{n-m}}{C_N^n}
P(X=m)=CNnCMmCN−Mn−m
二项分布用于有放回抽样,超几何分布用于无放回抽样。
几何分布:如果随机变量
X
X
X只取正整数值
1
,
2
,
⋯
1,2,\cdots
1,2,⋯,且分布列为
P
(
X
=
k
)
=
q
k
−
1
p
,
k
=
1
,
2
,
⋯
p
+
q
=
1
,
0
<
p
<
1
P(X=k)=q^{k-1}p,\ k=1,2,\cdots\\ p+q=1,0<p<1
P(X=k)=qk−1p, k=1,2,⋯p+q=1,0<p<1
则称
X
X
X服从参数为
p
p
p的几何分布。
几何分布的无记忆性:如果
X
X
X服从几何分布,则对于任意正整数
m
,
n
m,n
m,n,都有
P
(
X
>
m
+
n
∣
X
>
m
)
=
P
(
X
>
n
)
P(X>m+n|X>m)=P(X>n)
P(X>m+n∣X>m)=P(X>n)
连续型随机变量
定义 2.3.1:设
X
X
X为随机变量,如果存在非负可积函数
P
X
(
x
)
P_X(x)
PX(x),使得对任意实数b都有
P
(
X
≤
b
)
=
∫
−
∞
b
p
X
(
x
)
d
x
P(X\le b)=\int_{-\infty}^{b}p_X(x)dx
P(X≤b)=∫−∞bpX(x)dx
则称
X
X
X为连续型随机变量,称
P
X
(
x
)
P_X(x)
PX(x)为
X
X
X的概率密度函数(pdf)或概率密度,密度函数或密度。
可以在有限个点上不定义 p ( x ) p(x) p(x)的值,且改变有限个点的值得到的密度函数 p ˉ ( x ) \bar{p}(x) pˉ(x)依然是密度函数。
命题 2.3.1:函数 p ( x ) p(x) p(x)为某个连续型随机变量 X X X的密度的充分必要条件是
- p ( x ) ≥ 0 p(x)\ge 0 p(x)≥0
- ∫ − ∞ + ∞ p ( x ) d x = 1 \int_{-\infty}^{+\infty}p(x)dx=1 ∫−∞+∞p(x)dx=1
命题 2.3.2 设 X X X是连续性随机变量,则 X X X的分布函数连续且对任意实数 a a a,有 P ( X = a ) = 0 P(X=a)=0 P(X=a)=0
推论 2.3.1:
- P ( X > a ) = ∫ a + ∞ p ( x ) d x P(X>a)=\int_a^{+\infty}p(x)dx P(X>a)=∫a+∞p(x)dx
- P ( X < b ) = ∫ − ∞ b p ( x ) d x P(X<b)=\int_{-\infty}^bp(x)dx P(X<b)=∫−∞bp(x)dx
- P ( a < X ≤ b ) = ∫ a b p ( x ) d x P(a<X\le b)=\int_a^bp(x)dx P(a<X≤b)=∫abp(x)dx
分布函数和密度函数的关系: p ( x ) = F ′ ( x ) p(x)=F'(x) p(x)=F′(x)
均匀分布:设
a
,
b
a,b
a,b为实数,
a
<
b
a<b
a<b,如果随机变量
X
X
X有密度函数
p
(
x
)
=
{
1
b
−
a
,
x
∈
[
a
,
b
]
0
,
x
<
a
或
x
>
b
p(x)=\begin{cases} \frac{1}{b-a},\ x\in[a,b]\\ 0,\ x<a或x>b \end{cases}
p(x)={b−a1, x∈[a,b]0, x<a或x>b
则称
X
X
X服从
[
a
,
b
]
[a,b]
[a,b]上的均匀分布
U
(
a
,
b
)
U(a,b)
U(a,b)
指数分布:如果随机变量
X
X
X有密度函数
p
(
x
)
=
{
λ
e
−
λ
x
,
x
≥
0
0
,
x
<
0
p(x)=\begin{cases} \lambda e^{-\lambda x},\ x\ge 0\\ 0,\ x <0 \end{cases}
p(x)={λe−λx, x≥00, x<0
其中
λ
>
0
\lambda>0
λ>0,则称
X
X
X服从参数为
λ
\lambda
λ的指数分布
E
(
λ
)
E(\lambda)
E(λ)
正态分布:如果随机变量
X
X
X有密度函数
p
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
p(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{\frac{-(x-\mu)^2}{2\sigma^2}}
p(x)=2πσ1e2σ2−(x−μ)2
其中
σ
>
0
\sigma>0
σ>0,则称
X
X
X服从正态分布
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2),
N
(
0
,
1
)
N(0,1)
N(0,1)被称为标准正态分布。
随机向量及其分布
n维随机变量: X ( ω ) = ( X 1 ( ω ) , X 2 ( ω ) , … , X n ( ω ) ) X(\omega)=(X_1(\omega),X_2(\omega),\dots,X_n(\omega)) X(ω)=(X1(ω),X2(ω),…,Xn(ω))
定义 2.4.1(联合分布函数):设
(
X
,
Y
)
(X,Y)
(X,Y)为二维随机向量,称二元函数
F
(
x
,
y
)
=
P
(
X
≤
x
,
Y
≤
y
)
F(x,y)=P(X\le x, Y\le y)
F(x,y)=P(X≤x,Y≤y)
为
(
X
,
Y
)
(X,Y)
(X,Y)的联合分布函数。
定义 2.4.2(联合分布函数):设
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
X=(X_1,X_2,\cdots,X_n)
X=(X1,X2,⋯,Xn)为
n
n
n维随机向量,称
n
n
n元函数
F
(
x
1
,
x
2
,
⋯
,
x
n
)
=
P
(
X
1
≤
x
1
,
X
2
≤
x
2
,
⋯
,
X
n
≤
x
n
)
F(x_1,x_2,\cdots,x_n)=P(X_1\le x_1,X_2\le x_2,\cdots,X_n\le x_n)
F(x1,x2,⋯,xn)=P(X1≤x1,X2≤x2,⋯,Xn≤xn)
为
X
X
X的联合分布函数。
边缘分布:设
F
(
x
,
y
)
F(x,y)
F(x,y)是二维随机向量
(
X
,
Y
)
(X,Y)
(X,Y)的联合分布函数,则有
F
X
(
x
)
=
P
(
X
≤
x
,
Y
<
+
∞
)
=
lim
y
→
+
∞
F
(
x
,
y
)
F
Y
(
y
)
=
P
(
X
<
+
∞
,
Y
≤
y
)
=
lim
x
→
+
∞
F
(
x
,
y
)
F_X(x)=P(X\le x,Y<+\infty)=\lim_{y\rightarrow+\infty}F(x,y)\\ F_Y(y)=P(X < +\infty,Y\le y)=\lim_{x\rightarrow+\infty}F(x,y)
FX(x)=P(X≤x,Y<+∞)=y→+∞limF(x,y)FY(y)=P(X<+∞,Y≤y)=x→+∞limF(x,y)
二维离散型随机向量:如果
X
,
Y
X,Y
X,Y均为离散型随机变量,则称
(
X
,
Y
)
(X,Y)
(X,Y)为二维离散型随机向量,其分布列为
P
{
(
X
,
Y
)
=
(
x
i
,
y
j
)
}
=
p
i
j
P\{(X,Y)=(x_i,y_j)\}=p_{ij}
P{(X,Y)=(xi,yj)}=pij
边缘分布列:若随机向量
(
X
,
Y
)
(X,Y)
(X,Y)有联合分布列,则
X
,
Y
X,Y
X,Y的边缘分布列分别是
P
(
X
=
x
i
)
=
∑
j
=
1
∞
P
(
X
=
x
i
,
Y
=
y
j
)
,
i
=
1
,
2
,
⋯
P
(
Y
=
y
j
)
=
∑
i
=
1
∞
P
(
X
=
x
i
,
Y
=
y
j
)
,
j
=
1
,
2
,
⋯
P(X=x_i)=\sum_{j=1}^{\infty}P(X=x_i,Y=y_j),i=1,2,\cdots\\ P(Y=y_j)=\sum_{i=1}^{\infty}P(X=x_i,Y=y_j),j=1,2,\cdots
P(X=xi)=j=1∑∞P(X=xi,Y=yj),i=1,2,⋯P(Y=yj)=i=1∑∞P(X=xi,Y=yj),j=1,2,⋯
联合概率密度函数:设
(
X
,
Y
)
(X,Y)
(X,Y)为二维随机向量,若存在非负可积函数
p
(
x
,
y
)
p(x,y)
p(x,y)使得对于任意实数
b
1
,
b
2
b_1,b_2
b1,b2,都有
P
(
X
≤
b
1
,
Y
≤
b
2
)
=
∫
−
∞
b
2
∫
−
∞
b
1
p
(
x
,
y
)
d
x
d
y
P(X\le b_1,Y\le b_2)=\int_{-\infty}^{b_2}\int_{-\infty}^{b_1}p(x,y)dxdy
P(X≤b1,Y≤b2)=∫−∞b2∫−∞b1p(x,y)dxdy
则称
(
X
,
Y
)
(X,Y)
(X,Y)为连续型随机向量,称
p
(
x
,
y
)
p(x,y)
p(x,y)为联合概率密度函数。
联合分布函数:
F
(
x
,
y
)
=
∫
−
∞
y
∫
−
∞
x
P
(
s
,
t
)
d
s
d
t
F(x,y)=\int_{-\infty}^y\int_{-\infty}^xP(s,t)dsdt
F(x,y)=∫−∞y∫−∞xP(s,t)dsdt
边缘密度函数:
p
X
(
x
)
=
∫
−
∞
+
∞
p
(
x
,
y
)
d
y
p
Y
(
y
)
=
∫
−
∞
+
∞
p
(
x
,
y
)
d
x
p_X(x)=\int_{-\infty}^{+\infty}p(x,y)dy\\ p_Y(y)=\int_{-\infty}^{+\infty}p(x,y)dx
pX(x)=∫−∞+∞p(x,y)dypY(y)=∫−∞+∞p(x,y)dx
定义 2.5.1(随机变量的独立性):设随机向量
(
X
,
Y
)
(X,Y)
(X,Y)的联合分布函数为
F
(
x
,
y
)
F(x,y)
F(x,y),
X
X
X的分布函数为
F
X
(
x
)
F_X(x)
FX(x),
Y
Y
Y的分布函数为
F
Y
(
y
)
F_Y(y)
FY(y),如果
F
(
x
,
y
)
=
F
X
(
x
)
F
Y
(
y
)
F(x,y)=F_X(x)F_Y(y)
F(x,y)=FX(x)FY(y)
则称随机变量
X
,
Y
X,Y
X,Y是独立的。
定理 2.5.1:设离散型随机向量
(
X
,
Y
)
(X,Y)
(X,Y),
X
X
X取值于
{
x
1
,
x
2
,
⋯
}
\{x_1,x_2,\cdots\}
{x1,x2,⋯},
Y
Y
Y取值于
{
y
1
,
y
2
,
⋯
}
\{y_1,y_2,\cdots\}
{y1,y2,⋯},则
X
,
Y
X,Y
X,Y相互独立的充要条件是对于任意的
x
i
,
y
j
x_i,y_j
xi,yj都有
P
(
X
=
x
i
,
Y
=
y
j
)
=
P
(
X
=
x
i
)
P
(
Y
=
y
j
)
P(X=x_i,Y=y_j)=P(X=x_i)P(Y=y_j)
P(X=xi,Y=yj)=P(X=xi)P(Y=yj)
定理 2.5.2:设
(
X
,
Y
)
(X,Y)
(X,Y)为连续型随机向量,
X
X
X的密度为
P
X
(
x
)
P_X(x)
PX(x),
Y
Y
Y的密度为
P
Y
(
y
)
P_Y(y)
PY(y),则
X
,
Y
X,Y
X,Y相互独立的充要条件是
p
(
x
,
y
)
=
p
X
(
x
)
p
Y
(
y
)
p(x,y)=p_X(x)p_Y(y)
p(x,y)=pX(x)pY(y)
三 随机变量的数字特征
期望
期望:期望可以被解释为随机变量的取值的加权平均。
定义 3.1.1:设离散型随机变量
X
X
X的分布列为
P
(
X
=
x
k
)
=
p
k
,
k
=
1
,
2
,
⋯
P(X=x_k)=p_k,\ k=1,2,\cdots
P(X=xk)=pk, k=1,2,⋯
若
∑
k
∣
x
k
∣
P
(
X
=
x
k
)
<
+
∞
\sum_k|x_k|P(X=x_k)<+\infty
k∑∣xk∣P(X=xk)<+∞
则记
E
X
=
∑
k
x
k
P
(
X
=
x
k
)
=
∑
k
x
k
p
k
EX=\sum_kx_kP(X=x_k)=\sum_kx_kp_k
EX=k∑xkP(X=xk)=k∑xkpk
并称
X
X
X的期望存在或称
E
X
EX
EX存在,称
E
X
EX
EX为
X
X
X的期望。
定义 3.1.2:设
X
X
X为连续型随机变量,有密度
p
(
x
)
p(x)
p(x),若
∫
−
∞
+
∞
∣
x
∣
p
(
x
)
d
x
<
+
∞
\int_{-\infty}^{+\infty}|x|p(x)dx<+\infty
∫−∞+∞∣x∣p(x)dx<+∞
则记
E
X
=
∫
−
∞
+
∞
x
p
(
x
)
d
x
EX=\int_{-\infty}^{+\infty}xp(x)dx
EX=∫−∞+∞xp(x)dx
并称
X
X
X的期望存在或称
E
X
EX
EX存在,称
E
X
EX
EX为
X
X
X的期望。
期望的性质:设 X X X为随机变量, a , b , c a,b,c a,b,c为常数
-
把常数c看作只取值c的离散型随机变量,则
E c = c Ec=c Ec=c -
E ( a X + b ) = a E ( X ) + b E(aX+b)=aE(X)+b E(aX+b)=aE(X)+b
-
若 P ( X ≥ 0 ) = 1 P(X\ge 0)=1 P(X≥0)=1,则 E ( X ) ≥ 0 E(X)\ge0 E(X)≥0
定理 3.1.1:设 X X X是随机变量, f ( x ) f(x) f(x)是实值函数
-
若 X X X为离散型,有分布列 P ( X = x k ) = p k , k = 1 , 2 , ⋯ P(X=x_k)=p_k,k=1,2,\cdots P(X=xk)=pk,k=1,2,⋯且有 ∑ k ∣ f ( x k ) ∣ p k < + ∞ \sum_k|f(x_k)|p_k<+\infty ∑k∣f(xk)∣pk<+∞,则
E ( f ( X ) ) = ∑ k f ( x k ) p k E(f(X))=\sum_kf(x_k)p_k E(f(X))=k∑f(xk)pk -
若 X X X为连续型,有密度 p X ( x ) p_X(x) pX(x), ∫ − ∞ + ∞ ∣ f ( x ) ∣ P X ( x ) d x < + ∞ \int_{-\infty}^{+\infty}|f(x)|P_X(x)dx<+\infty ∫−∞+∞∣f(x)∣PX(x)dx<+∞,则
E ( f ( x ) ) = ∫ − ∞ + ∞ f ( x ) p X ( x ) d x E(f(x))=\int_{-\infty}^{+\infty}f(x)p_X(x)dx E(f(x))=∫−∞+∞f(x)pX(x)dx
定理 3.1.2:设 ( X , Y ) (X,Y) (X,Y)为随机向量, f ( x , y ) f(x,y) f(x,y)是二元实值函数
-
若 ( X , Y ) (X,Y) (X,Y)为离散型随机向量,有分布列 P ( X = x i , Y = y j ) = p i j , i = 1 , 2 , ⋯ , j = 1 , 2 , ⋯ P(X=x_i,Y=y_j)=p_{ij},i=1,2,\cdots,j=1,2,\cdots P(X=xi,Y=yj)=pij,i=1,2,⋯,j=1,2,⋯
∑ i , j ∣ f ( x i , y j ) ∣ P ( X = x i , Y = y j ) < + ∞ \sum_{i,j}|f(x_i,y_j)|P(X=x_i,Y=y_j)<+\infty ∑i,j∣f(xi,yj)∣P(X=xi,Y=yj)<+∞,则
E f ( X , Y ) = ∑ i , j f ( x i , y j ) P ( X = x i , Y = y j ) Ef(X,Y)=\sum_{i,j}f(x_i,y_j)P(X=x_i,Y=y_j) Ef(X,Y)=i,j∑f(xi,yj)P(X=xi,Y=yj) -
若 ( X , Y ) (X,Y) (X,Y)为连续型,有密度 p ( x , y ) , ∫ − ∞ + ∞ ∫ − ∞ + ∞ ∣ f ( x , y ) ∣ p ( x , y ) d x d y < + ∞ p(x,y),\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}|f(x,y)|p(x,y)dxdy<+\infty p(x,y),∫−∞+∞∫−∞+∞∣f(x,y)∣p(x,y)dxdy<+∞,则
E f ( X , Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( x , y ) p ( x , y ) d x d y = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( x , y ) d F ( x , y ) Ef(X,Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(x,y)p(x,y)dxdy=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(x,y)dF(x,y) Ef(X,Y)=∫−∞+∞∫−∞+∞f(x,y)p(x,y)dxdy=∫−∞+∞∫−∞+∞f(x,y)dF(x,y)
命题 3.1.3:若
X
,
Y
X,Y
X,Y相互独立,则
E
(
X
Y
)
=
E
X
∗
E
Y
E(XY)=EX*EY
E(XY)=EX∗EY
方差
定义 3.2.1:设随机变量
X
X
X的期望存在,若随机变量
(
X
−
E
X
)
2
(X-EX)^2
(X−EX)2的期望存在,则记
D
X
=
E
(
X
−
E
X
)
2
DX=E(X-EX)^2
DX=E(X−EX)2
并且称
X
X
X的方差存在或称
D
X
DX
DX存在,称
D
X
DX
DX为
X
X
X的方差。
对于离散型随机变量,
D
X
DX
DX为
D
X
=
∑
k
(
x
k
−
E
X
)
2
p
k
DX=\sum_k(x_k-EX)^2p_k
DX=k∑(xk−EX)2pk
对于连续型随机变量,
D
X
DX
DX为
D
X
=
∫
−
∞
+
∞
(
x
−
E
X
)
2
p
(
x
)
d
x
DX=\int_{-\infty}^{+\infty}(x-EX)^2p(x)dx
DX=∫−∞+∞(x−EX)2p(x)dx
方差的计算可以简化为
D
X
=
E
X
2
−
(
E
X
)
2
DX=EX^2-(EX)^2
DX=EX2−(EX)2
定理 3.2.1:设
X
,
Y
X,Y
X,Y是随机变量,
a
,
c
a,c
a,c是实常数,则
- D ( c ) = 0 D(c)=0 D(c)=0
- D ( a X ) = a 2 D X D(aX)=a^2DX D(aX)=a2DX
- D ( X + c ) = D X D(X+c)=DX D(X+c)=DX
- 如果 X , Y X,Y X,Y独立,则 D ( X + Y ) = D ( X ) + D ( Y ) D(X+Y)=D(X)+D(Y) D(X+Y)=D(X)+D(Y)
- D X ≥ 0 DX\ge 0 DX≥0
四 统计估计
似然函数:设总体
X
X
X的密度函数为
p
(
x
;
θ
)
p(x;\theta)
p(x;θ),其中
θ
=
(
θ
1
,
θ
2
,
⋯
,
θ
m
)
\theta=(\theta_1,\theta_2,\cdots,\theta_m)
θ=(θ1,θ2,⋯,θm)为未知参数,
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn为来自总体的样本,其观测值为
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn,令
L
=
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
=
p
(
x
1
;
θ
)
p
(
x
2
;
θ
)
⋯
p
(
x
n
;
θ
)
L=L(x_1,x_2,\cdots,x_n;\theta)=p(x_1;\theta)p(x_2;\theta)\cdots p(x_n;\theta)
L=L(x1,x2,⋯,xn;θ)=p(x1;θ)p(x2;θ)⋯p(xn;θ)
当
θ
\theta
θ固定时,
L
L
L是随机向量
(
X
1
,
X
2
,
⋯
,
X
n
)
(X_1,X_2,\cdots,X_n)
(X1,X2,⋯,Xn)的密度函数;当
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn固定时,
L
L
L是
θ
\theta
θ的函数,称为样本的似然函数。
最大似然估计:如果一个事件发生了,则把使得这个事件发生具有最大概率的参数 θ ^ \hat{\theta} θ^来作为未知参数 θ \theta θ的估计。如果似然函数 L ( x 1 , x 2 , ⋯ , x n ; θ ) L(x_1,x_2,\cdots,x_n;\theta) L(x1,x2,⋯,xn;θ)在 θ = θ ^ \theta=\hat\theta θ=θ^处达到最大值,则称 θ ^ \hat{\theta} θ^是参数 θ \theta θ的最大似然估计。