全概率公式和贝叶斯定理
全概率公式
- 定理1.2(全概率公式)设事件A1,A2,…,An是试验E的一个完备事件组,且P(Ai)>0,(i=1,2,…,n),则对任意事件B,有: P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum_{i=1}^n P(A_i)P(B|A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)
- 事件A出现的概率*事件A出现的前提下B发生的概率
贝叶斯公式
- 知道结果,想要知道原因导致的可能性
- 定理1.3(贝叶斯公式)
事件A1,A2,…,An是试验E的一个完备事件组,且P(Ai)>0,(i=1,2,…,n),B为E的任一事件,P(B)>0,则:
P ( A k ∣ B ) = P ( A k ) P ( B ∣ A k ) ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(A_k|B)=\frac{P(A_k)P(B|A_k)} {∑_{i=1}^{n}P(A_i)P(B|A_i)} P(Ak∣B)=∑i=1nP(Ai)P(B∣Ai)P(Ak)P(B∣Ak)
B已经发生后,求是哪个A导致的 (例子:发烧了,找是什么原因导致)
随机变量
- 定义
- 随机事件用变量表示
- 试验的每一可能结果w,都对应着一个确定的实数X(w),由于试验的结果是随机的,X的取值也是随机的,这样的变量X称为随机变量。
- 随机变量的分类
按照随机变量的取值情况可把其分为两类:
(1)离散型随机变量: 随机变量X的全部取值只有有限个或无限可列个.(全体整数,筛子点数)
(2)非离散型随机变量: 随机变量X的全部取值不能一一列出.(身高,数轴取值,灯泡寿命)
随机变量的分布
- 事件只有概率,变量才会对应数轴上的分布,是事件的
离散型随机变量及其概率分布
- 定义
若离散型随机变量X的所有可能的取值为 x 1 , x 2 . . . , X x_1,x_2...,X x1,x2...,X取每个可能值的概率为 P 1 , P 2 , . . . P_1,P_2,... P1,P2,...即:
P ( X = x k ) = p k , k = 1 , 2 , . . . ( 1 ) P(X=x_k)=p _k,k=1,2,...(1) P(X=xk)=pk,k=1,2,...(1)
则称式(1)为离散型随机变量X的概率函数或概率分布,又称分布律或分布列.
X | X1 | X2 | X3 | … | Xk |
---|---|---|---|---|---|
P | P1 | P2 | P3 | … | Pk |
- 性质
(1) P k ≥ 0 , k = 1 , 2 , . . P_k\geq 0,k=1,2,.. Pk≥0,k=1,2,..
(2) ∑ K n P k = 1 \sum_K^nP_k=1 ∑KnPk=1
连续型随机变量及其概率密度函数
-
定义2.2设随机变量X的所有可能取值是某一区间上的所有实数,若存在非负可积函数f(x),使得对任意(a,b],
P ( a < X ≤ b ) = ∫ a b f ( x ) d x P(a<X\leq b)=\int_a^bf(x)dx P(a<X≤b)=∫abf(x)dx(函数的阴影面积)
则称X为连续型随机变量,称f(x)为X的概率分布密度函数,简称为概率密度或密度函数,记作X~ f ( x ) f(x) f(x). -
性质
(1) f ( x ) ≥ 0 f(x)\geq0 f(x)≥0
(2) ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty} f(x)dx=1 ∫−∞+∞f(x)dx=1
(3)设X是连续型随机变量,则对任意的实数X0, P ( X = x 0 ) = 0 P(X=x_0)=0 P(X=x0)=0(趋近于0)
在本章符合:(概率为零的事件未必是不可能事件,概率为1的事件未必是必然事件) -
密度函数不是概率 Δ \Delta Δ
密度函数f(x)在点x的函数值大小反映了随机变量X在x点附近取值的概率的大小。 P ( x < X ≤ x + Δ x ) P(x<X\leq x+\Delta x) P(x<X≤x+Δx)~ f ( x ) Δ x f(x)\Delta x f(x)Δx
随机变量的分布函数(离散+连续)
1.** 定义2.3** 设X为一个随机变量,对任意实数x,函数
F
(
x
)
=
P
(
X
≤
x
)
F(x)=P(X\leq x)
F(x)=P(X≤x)
称为随机变量X的分布函数(累计分布函数)。
-
性质
(1)F(x)是x的不减函数,即对 x 1 < x 2 x_1<x_2 x1<x2,有 F ( x 1 ) ≤ F ( x 2 ) F(x_1)\leq F(x_2) F(x1)≤F(x2)
(2) F ( + ∞ ) = 1 F(+\infty)=1 F(+∞)=1 F ( − ∞ ) = 0 F(-\infty)=0 F(−∞)=0)(求参数) -
设随机变量X的分布函数为F(x),则:
P{X ≤ \leq ≤ a}= F ( a ) F(a) F(a)
P{X>a}=1-P{ X ≤ a X\leq a X≤a}= 1 − F ( a ) 1-F(a) 1−F(a)
P{ a < X ≤ b a<X\leq b a<X≤b}= P{X ≤ b \leq b ≤b}-P{X ≤ a \leq a ≤a}= F ( b ) − F ( a ) F(b)-F(a) F(b)−F(a)
P{X<a}=F(a)-P{X=a}
P{X ≥ \geq ≥a}=1-F(a)+P{X=a}
P{a ≤ \leq ≤X ≤ \leq ≤b}=F(b)-F(a)+P{X=a}
P{a ≤ \leq ≤X<b}=F(b)-F(a)-P{X=b}+P{X=a}
P{a<x<b}=F(b)-F(a}-P{X=b} -
连续型随机变量的分布函数
设X是连续型随机变量,f(x)是密度函数,则分布函数F(x)为:
F ( x ) = P ( X ≤ x ) = ∫ − ∞ x f ( t ) d t F(x)=P(X\leq x)=\int_{-\infty}^{x} f(t)dt F(x)=P(X≤x)=∫−∞xf(t)dt
1)连续型随机变量X的分布函数F(x)是连续函数.
2)若f(x)在点x处连续,则F(x)在点x处可导且 F ′ ( x ) = f ( x ) F'(x)=f(x) F′(x)=f(x).
例题:通过密度函数求分布函数
常见随机变量的分布
常见离散型随机变量的分布
- 两点分布
若X所有可能的取值只有两个x。和x,则称X服从两点分布.其概率分布表为:
X | x 0 x_0 x0 | x 1 x_1 x1 |
---|---|---|
P | 1-p | P |
仅取0和1两个值的两点分布,称为0-1分布或伯努利分布.记作XB(1,p)或X0-1.概率分布表:
X | 0(不发生) | 1(发生) |
---|---|---|
P | 1-p | P |
P ( X = k ) = p k ( 1 − p ) 1 − k , k = 0 , 1 P(X=k)=p^k(1-p)^{1-k} ,k=0,1 P(X=k)=pk(1−p)1−k,k=0,1
-
几何分布
前面k-1次都没有成功,K次成功的概率:
P ( X = k ) = ( 1 − p ) k − 1 p , k = 1 , 2 , . . . P(X=k)=(1-p)^{k-1}p,k=1,2,... P(X=k)=(1−p)k−1p,k=1,2,...
X服从参数为p的几何分布,记作X~G§。 -
二项分布
(1)发生k次,不发生n-k次的概率:
P ( X = k ) = C n k p k q n − k P(X=k)=C_n^kp^kq^{n-k} P(X=k)=Cnkpkqn−k
其中: 0<p<1, q=1-p, 则称X服从参数为,p的二项分布 Binomial,记为X~B(n,p)
(2)二项分布的最可能值
k
0
k_0
k0
设X~B(n,p),X可能的取值为0,1…,n,使概率P(X=k)取最大值的k,记作
k
0
k_0
k0,称
k
0
k_0
k0为二项分布的最可能值.把最大值P(X=
k
0
k_0
k0)称为二项分布的最大概率.
由于P(X=k)最大,所以有以下不等式:
KaTeX parse error: Undefined control sequence: \ at position 60: …时\\ [(n+1)p],其他\̲ ̲\end{cases}
- 泊松分布
(1)泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。
P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , 2 , . . . P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}, k=0,1,2,... P(X=k)=k!λke−λ,k=0,1,2,...
其中λ>0为常数,则称随机变量X服从参数为λ的泊松分布,简记为X~P( λ \lambda λ)
(2) Poisson定理
若X~B(n,p),若n比较大,p比较小,np大小适中,则X近似地服从参数为
λ
=
n
p
λ=np
λ=np的泊松分布。
- 超几何分布
(1) 设N个元素分为两类,第一类有 N 1 N_1 N1个元素,第二类有 N 2 N_2 N2个元素(N= N 1 + N 2 N_1+N_2 N1+N2),从中任取n个,令X表示这n个元素中第一类元素的个数,则X的概率函数为
P ( X = k ) = C N 1 k ∗ C N 2 n − k C N n , k = 0 , 1 , 2 , . . . m i n ( n , N 1 ) P(X=k)=\frac{C_{N_1}^{k}*C_{N_2}^{n-k}} {C_{N}^{n}} , k=0,1,2,...min(n,N_1) P(X=k)=CNnCN1k∗CN2n−k,k=0,1,2,...min(n,N1)
称X服从超几何分布。
超几何分布的二项分布逼近
若X服从超几何分布,而N很大,n相对N较小,则X近似地服从参数为
n
,
p
=
N
1
/
N
n,p=N_1/N
n,p=N1/N的二项分布.
常见连续型随机变量的分布
- 均匀分布
(1)若随机变量X的概率密度为
f ( x ) = { 1 b − a , a ≤ x ≤ b 0 , 其 它 f(x)=\begin{cases} \frac{1}{b-a},a\leq x\leq b\\ 0,其它 \end{cases} f(x)={b−a1,a≤x≤b0,其它
则称X服从区间 [ a , b ] [a,b] [a,b]上的均匀分布记为X~U [ a , b ] [a,b] [a,b].
(2)分布函数
F
(
x
)
=
{
0
,
x
<
a
x
−
a
b
−
a
,
a
≤
x
<
b
1
,
b
≤
x
F(x)=\begin{cases} 0,x<a\\ \frac{x-a}{b-a},a\leq x< b\\ 1,b\leq x \end{cases}
F(x)=⎩⎪⎨⎪⎧0,x<ab−ax−a,a≤x<b1,b≤x
- 指数分布
(1)若随机变量X的密度函数为
f ( x ) = { λ e − λ x , x > 0 0 , x ≤ 0 f(x)=\begin{cases} \lambda e^{-\lambda x} ,x>0\\ 0, x\leq 0 \end{cases} f(x)={λe−λx,x>00,x≤0
其中 λ \lambda λ>0为常数,则称X服从参数为 λ \lambda λ的指数分布,
Exponential distribution,记为X~ E x p ( λ E_{xp}(\lambda Exp(λ).
(2)分布函数
F
(
x
)
=
{
1
−
e
−
λ
x
,
x
>
0
0
,
x
≤
0
F(x)=\begin{cases} 1-e^{-\lambda x} ,x>0\\ 0, x\leq 0 \end{cases}
F(x)={1−e−λx,x>00,x≤0
说明: 指数分布常可作为各种“寿命”分布的近似,如电子元件的寿命,动物的寿命,电话问题中的通话时间,随机服务系统中的服务时间等都常被假定服从指数分布。
- 正态分布
(1) φ ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 \varphi(x)=\frac{1}{\sqrt{2π}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} φ(x)=2πσ1e−2σ2(x−μ)2
μ , σ 为 常 数 , 且 σ > 0 , 称 为 正 态 分 布 , 记 作 : X \mu,\sigma为常数,且\sigma>0,称为正态分布,记作:X μ,σ为常数,且σ>0,称为正态分布,记作:X~ N ( μ , σ 2 ) . N(\mu,\sigma^2). N(μ,σ2).
性质
(1)概率密度函数>0
(2)分布函数=1
特性
(1)x=μ对称,最大值
1
2
π
σ
\frac{1}{\sqrt{2π}\sigma}
2πσ1
(2)μ决定位置,
σ
\sigma
σ决定形状的陡与缓
(2)标准正态分布
μ
=
0
,
σ
=
1
时
,
正
态
分
布
称
为
标
准
正
态
分
布
,
记
为
:
X
\mu=0,\sigma=1时,正态分布称为标准正态分布,记为:X
μ=0,σ=1时,正态分布称为标准正态分布,记为:X~N(0,1).
分布函数
1)
Φ
0
(
−
x
)
=
1
−
Φ
0
(
x
)
,
Φ
0
(
x
)
=
0.5
\Phi_0(-x)=1-\Phi_0(x),\Phi_0(x)=0.5
Φ0(−x)=1−Φ0(x),Φ0(x)=0.5
2)
P
(
a
<
X
≤
b
)
=
Φ
0
(
b
)
−
Φ
0
(
a
)
P(a<X\leq b)=\Phi_0(b)-\Phi_0(a)
P(a<X≤b)=Φ0(b)−Φ0(a)
3)
x
>
0
,
P
(
∣
X
∣
≤
x
)
=
2
Φ
0
(
x
)
−
1
x>0,P(|X|\leq x)=2\Phi_0(x)-1
x>0,P(∣X∣≤x)=2Φ0(x)−1
标准化转换公式
1)
φ
(
x
)
=
1
σ
φ
0
(
x
−
μ
σ
)
,
x
∈
R
\varphi(x)=\frac{1}{\sigma}\varphi_0(\frac{x-\mu}{\sigma}),x\in R
φ(x)=σ1φ0(σx−μ),x∈R
2)
Φ
(
x
)
=
Φ
0
(
x
−
μ
σ
)
,
x
∈
R
\Phi(x)=\Phi_0(\frac{x-\mu}{\sigma}),x\in R
Φ(x)=Φ0(σx−μ),x∈R
3 σ 准 侧 3\sigma 准侧 3σ准侧:3个标准差里面的概率超过99.73%
随机变量函数的分布
随机变量函数
- 定义
设X是一个随机变量,y=g(x)是连续函数,则Y=g(x)也是随机变量,称Y=g(X)为随机变量的函数。(概率结果放到一个函数里)
离散型随机变量函数的分布
概率P不变,X根据变化函数计算结果,X计算出相同的Y需要合并
连续型随机变量函数的分布
步骤:
step1:
求
出
Y
的
分
布
函
数
F
Y
(
y
)
求出Y的分布函数F_Y(y)
求出Y的分布函数FY(y):
F
Y
(
y
)
=
P
(
Y
≤
y
)
=
P
(
g
(
X
)
≤
y
)
=
P
(
x
∈
I
y
)
=
∫
I
y
f
x
(
x
)
d
x
F_Y(y)=P(Y\leq y)=P(g(X)\leq y)=P(x\in I_y)=\int_{I_y}f_x(x)dx
FY(y)=P(Y≤y)=P(g(X)≤y)=P(x∈Iy)=∫Iyfx(x)dx
step2: 对
F
Y
(
y
)
求
导
得
到
f
Y
(
y
)
F_Y(y)求导得到f_Y(y)
FY(y)求导得到fY(y):
f
Y
(
y
)
=
(
F
Y
(
y
)
)
′
f_Y(y)=(F_Y(y))'
fY(y)=(FY(y))′
- 均匀分布
随机变量服从 [ a , b ] [a,b] [a,b]上的均匀分布,则X的线性函数 Y = k X + c ( k ≠ 0 ) Y=kX+c(k\neq 0) Y=kX+c(k=0)服从相应区间上的均匀分布, Y ∈ [ k a + c , k b + c ] Y\in[ka+c,kb+c] Y∈[ka+c,kb+c]。
{ 1 k b − k a , [ k a + c , k b + c ] 0 , o t h e r s \begin{cases} \frac{1}{kb-ka},[ka+c,kb+c]\\ 0,others \end{cases} {kb−ka1,[ka+c,kb+c]0,others
- 定理
随 机 变 量 X 的 密 度 函 数 为 f X ( x ) , 则 随 机 变 量 Y = k X + b ( k ≠ 0 ) 的 密 度 函 数 为 : 随机变量X的密度函数为f_X(x),则随机变量Y=kX+b(k\neq 0)的密度函数为: 随机变量X的密度函数为fX(x),则随机变量Y=kX+b(k=0)的密度函数为:
f Y ( x ) = 1 ∣ k ∣ f X ( x − b k ) f_Y(x)=\frac{1}{|k|}f_X(\frac{x-b}{k}) fY(x)=∣k∣1fX(kx−b)
大数定律
- 大量实验得出的结论具有稳定性,变量的均值(多次实验)在期望的均值(多次实验期望的均值)附近。
切比雪夫不等式
- 定理5.1:设随机变量X的期望EX及方差DX存在,则对任意的ε>0,有:
P ( ∣ X − E X ∣ ≥ ε ) ≤ D X ε 2 P(|X-EX|\geqε)\leq \frac{DX}{ε^2} P(∣X−EX∣≥ε)≤ε2DX
P ( ∣ X − E X ∣ ≤ ε ) ≤ 1 − D X ε 2 P(|X-EX|\leqε)\leq 1-\frac{DX}{ε^2} P(∣X−EX∣≤ε)≤1−ε2DX
大数定理
P ( ∣ X − E X ∣ ≤ ε ) ≤ 1 − D X ε 2 P(|X-EX|\leqε)\leq 1-\frac{DX}{ε^2} P(∣X−EX∣≤ε)≤1−ε2DX
- 定义5.1:设
X
1
,
X
2
,
.
.
,
X
n
.
.
X_1,X_2,..,X_n..
X1,X2,..,Xn..是一随机变量序列,如果存在常数a,使对任意的ε>0,都有:
l i m P ( ∣ X n − a ∣ < ε ) = 1 limP(|X_n-a|<ε)=1 limP(∣Xn−a∣<ε)=1
- 意义:大量实验下,Xn偶尔超出范围的点不改变大量数据的统计稳定性,总体在范围内的概率是趋于1。
- 定理5.2:伯努利大数定律
前提:n次,发生 m n m_n mn次,P为发生的概率, m n n \frac{m_n}{n} nmn为频率。
l i m n − > ∞ P { ∣ m n n − p ∣ < ε } = 1 lim_{n->\infty}P\{|\frac{m_n}{n}-p|<ε\}=1 limn−>∞P{∣nmn−p∣<ε}=1
- 说明: n − > ∞ n->\infty n−>∞无数次实验,频率趋向于概率
- 切贝雪夫大数定律
前提: X 1 , X 2 . . . . X n X_1,X_2....X_n X1,X2....Xn是相互独立的随机变量序列。
变量的均值趋近于期望的均值,不被某几项变量的影响
中心极限定理
- 一个随机变量,如果它是很多个相互独立的随机变量之和,不管它们是离散的还是连续的或者是任何类型的,只要它们其中每一个对总和只产生微小的影响,则当求和项数无限增加时,这一总和的分布就趋于正态分布。(炮弹发射有很多东西影响,每个细小原因的影响最终反映在炮弹准确度上,炮弹的误差呈现正态分布)
- 定义:大量的相互独立的随机变量和的极限分布是正态分布
独立同分布中心极限定理\林德贝格-勒维中心极限定理
独立同分布的随机变量序列,且
E
X
i
=
μ
,
D
X
i
=
σ
2
>
0
EX_i=\mu,DX_i=\sigma^2>0
EXi=μ,DXi=σ2>0,(i=1,2,…)
则对任意实数x恒有:
l
i
m
n
−
>
∞
P
{
1
n
σ
(
∑
i
=
1
n
X
i
−
n
μ
)
≤
x
}
=
Φ
0
(
x
)
lim_{n->\infty}P\{\frac{1}{\sqrt{n}\sigma}\\(\sum_{i=1}^nX_i-n\mu)\leq x\}=\Phi_0(x)
limn−>∞P{nσ1(i=1∑nXi−nμ)≤x}=Φ0(x)
- 标准化后服从标准正态分布: ∑ x i − n μ n σ \frac{\sum x_i-n\mu}{\sqrt{n}\sigma} nσ∑xi−nμ~ N ( 0 , 1 ) N(0,1) N(0,1)