概率论复习
目录
1.似然函数与极大似然估计
似然函数
什么是似然函数: L ( θ ∣ x ) = f ( x ∣ θ ) L(\theta|x) = f(x|\theta) L(θ∣x)=f(x∣θ)
x x x是随机变量 X X X的取值,是已知的, θ \theta θ是未知参数
f ( x ∣ θ ) f(x|\theta) f(x∣θ)是给定 θ \theta θ下的关于 x x x联合密度函数,似然函数是关于 θ \theta θ的函数
f ( x ∣ θ ) = P θ ( X = x ) f(x|\theta) = P_\theta(X=x) f(x∣θ)=Pθ(X=x)表示在参数 θ \theta θ的下 X = x X=x X=x的可能性
对于似然函数而言,如果在
x
x
x给定的情况下,有如下样本关系(离散情况下):
L
(
θ
1
∣
x
)
=
P
θ
1
(
X
=
x
)
>
P
θ
2
(
X
=
x
)
=
L
(
θ
2
∣
x
)
L(\theta_1|x) = P_{\theta_1}(X=x) > P_{\theta_2}(X=x) = L(\theta_2|x)
L(θ1∣x)=Pθ1(X=x)>Pθ2(X=x)=L(θ2∣x)
那说明,在参数
θ
1
\theta_1
θ1下
X
X
X取到
x
x
x的概率大于
θ
2
\theta_2
θ2
连续情况下,对于给定的足够小的
ϵ
\epsilon
ϵ,其在
(
x
−
ϵ
,
x
+
ϵ
)
(x-\epsilon,x+\epsilon)
(x−ϵ,x+ϵ)内的概率为:
P
θ
(
x
−
ϵ
<
X
<
x
+
ϵ
)
=
∫
x
−
ϵ
x
+
ϵ
f
(
x
∣
θ
)
d
x
≈
2
ϵ
(
x
∣
θ
)
=
2
ϵ
L
(
θ
∣
x
)
P_\theta(x-\epsilon<X<x+\epsilon) = \int_{x-\epsilon}^{x+\epsilon}f(x|\theta)dx \approx 2\epsilon(x|\theta) = 2\epsilon L(\theta|x)
Pθ(x−ϵ<X<x+ϵ)=∫x−ϵx+ϵf(x∣θ)dx≈2ϵ(x∣θ)=2ϵL(θ∣x)
其比较结果与离散一样(互相比较的时候约去
ϵ
\epsilon
ϵ)
-
概率表示的是在给定参数 θ \theta θ时, X = x X=x X=x的可能性
-
似然表示的是在给定样本 X = x X=x X=x时,参数 θ \theta θ的可能性
极大似然估计
在一次抽样中,得到观测值 x 1 , x 2 , . . , x n x_1,x_2,..,x_n x1,x2,..,xn,选取 θ ′ ( x ) \theta^{'}(x) θ′(x)作为 θ \theta θ的估计值,使得 θ = θ ′ ( x 1 , x 2 , . . , x n ) \theta = \theta^{'}(x_1,x_2,..,x_n) θ=θ′(x1,x2,..,xn)时样本出现 概率最大
目的:找使得样本出现可能性最大的参数 θ \theta θ
似然函数确立
- 离散: L ( θ ) = ∏ i = 1 n p ( x i ; θ ) L(\theta) = \displaystyle\prod_{i=1}^n p(x_i;\theta) L(θ)=i=1∏np(xi;θ)
- 连续: L ( θ ) = ∏ i = 1 n f ( x i ; θ ) L(\theta) = \displaystyle\prod_{i=1}^n f(x_i;\theta) L(θ)=i=1∏nf(xi;θ)
极大似然估计:什么样的
θ
\theta
θ使得似然函数值越大越好
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
^
)
=
max
θ
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
)
L(x_1,x_2,...,x_n;\hat \theta) = \max_\theta L(x_1,x_2,...,x_n;\theta)
L(x1,x2,...,xn;θ^)=θmaxL(x1,x2,...,xn;θ)
求解路线:
-
构造似然函数 L ( θ ) L(\theta) L(θ)
-
对数似然函数 l n L ( θ ) ln L(\theta) lnL(θ) -> 累乘变累加
-
求偏导 ∂ l n L ∂ θ = 0 \frac{\partial lnL}{\partial \theta} = 0 ∂θ∂lnL=0
-
求解 θ \theta θ
2.基本概念
频率与概率
N次试验中发生了n次结果A,那么:
频率: f n ( A ) = n N f_n(A) = \frac{n}{N} fn(A)=Nn
概率: f n ( A ) f_n(A) fn(A)稳定时的值 P ( A ) = p P(A)=p P(A)=p
古典概型
试验中事件是有限的,出现每个事件的概率是相同的,那么就有:
P ( A ) = A 所包含的事件数量 事件的总数 P(A) = \frac{A所包含的事件数量}{事件的总数} P(A)=事件的总数A所包含的事件数量
条件概率
P ( B ) P(B) P(B)是在总的样本空间下B发生的概率,而 P ( B ∣ A ) P(B|A) P(B∣A)相当于A先发生了然后发生B的概率,即把A看做新的样本空间求AB同时发生的概率
即根据定义:
P
(
B
∣
A
)
=
n
(
A
B
)
n
(
A
)
=
n
(
A
B
)
/
N
n
(
A
B
)
/
N
=
P
(
A
B
)
P
(
A
)
P(B|A) = \frac{n(AB)}{n(A)} = \frac{n(AB)/N}{n(AB)/N} = \frac{P(AB)}{P(A)}
P(B∣A)=n(A)n(AB)=n(AB)/Nn(AB)/N=P(A)P(AB)
其中
N
N
N是总样本数,
n
(
A
)
n(A)
n(A)指
A
A
A包含的样本数
P ( B ∣ A ) P(B|A) P(B∣A)和 P ( A B ) P(AB) P(AB)的相同点和不同点:
- 相同点:A、B都发生了
- 不同点: P ( B ∣ A ) P(B|A) P(B∣A)中事件A成为样本空间,而 P ( A ∣ B ) P(A|B) P(A∣B)样本空间仍为总的样本空间 Ω \Omega Ω
独立性
P ( B ∣ A ) = P ( B ) P(B|A) = P(B) P(B∣A)=P(B) 或 P ( A ∣ B ) = P ( A ) P(A|B) = P(A) P(A∣B)=P(A)时,称A、B相互独立
独立时: P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P(AB)=P(A)P(B)
值得注意的是:相互独立并不等于两两独立
重复独立实验:在相同条件下,将试验重复进行,每次试验的结果不受其他各次实验的结果影响
n重伯努利实验:一次实验的结果只有 A A A和 A ˉ \bar A Aˉ,在相同的情况下降试验独立重复 n n n次
在n次伯努利实验中事件A刚好发生k次的概率
P
n
(
k
)
=
C
n
k
p
k
q
n
−
k
,
k
=
0
,
1
,
.
.
.
,
n
P_n(k) = C_n^kp^kq^{n-k}, k = 0,1,...,n
Pn(k)=Cnkpkqn−k,k=0,1,...,n
其中
q
=
1
−
p
q = 1-p
q=1−p
二维随机变量
联合分布函数 F ( x , y ) = P ( X ≤ x ) ⋂ ( Y ≤ y ) F(x,y) = P{(X\leq x)} \bigcap (Y\leq y) F(x,y)=P(X≤x)⋂(Y≤y),表示随机点(X,Y)在以(x,y)为顶点且位于该店左下方无穷矩阵内的概率
则有:
P
(
x
1
<
X
≤
x
2
,
y
1
<
Y
≤
y
2
)
=
F
(
x
2
,
y
2
)
−
F
(
x
2
,
y
1
)
−
F
(
x
1
,
y
2
)
+
F
(
x
1
,
y
1
)
P(x_1<X\leq x_2, \ y_1<Y\leq y_2) = F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)
P(x1<X≤x2, y1<Y≤y2)=F(x2,y2)−F(x2,y1)−F(x1,y2)+F(x1,y1)
离散型
联合概率分布(可以画成表格)
P
{
X
=
x
i
,
Y
=
y
j
}
=
P
(
x
i
,
y
j
)
=
p
i
j
,
i
,
j
=
1
,
2
,
.
.
.
P\{X=x_i,Y=y_j\} = P(x_i,y_j) = p_{ij},\ \ \ i,j = 1,2,...
P{X=xi,Y=yj}=P(xi,yj)=pij, i,j=1,2,...
且有
∑
i
=
1
∞
∑
j
=
1
∞
p
i
j
=
1
\displaystyle\sum_{i=1}^\infty \displaystyle\sum_{j=1}^\infty p_{ij} = 1
i=1∑∞j=1∑∞pij=1
连续型
KaTeX parse error: Expected group after '_' at position 26: …n G) = \int\int_̲\limits{G} f(x,…
其中 f ( x , y ) f(x,y) f(x,y)是联合概率密度, G G G是 x , y x,y x,y围成的区域
边缘分布
二维随机变量 ( X , Y ) (X,Y) (X,Y)作为整体,分布函数为 F ( x , y ) F(x,y) F(x,y),边缘分布函数记为 F X ( x ) , F Y ( y ) F_X(x),F_Y(y) FX(x),FY(y)
在分布函数 F ( x , y ) F(x,y) F(x,y)中令 y → + ∞ y\to +\infty y→+∞就可以得到 F X ( x ) F_X(x) FX(x)
离散型
P { Y = y j } = P { X < + ∞ , Y = y j } = ∑ i = 1 ∞ p i j P\{Y=y_j\} = P\{X<+\infty, Y=y_j\} = \displaystyle\sum_{i=1}^{\infty}p_{ij} P{Y=yj}=P{X<+∞,Y=yj}=i=1∑∞pij,记为 p ⋅ j p_{·j} p⋅j
即列成二维表格后的某一行或某一列加起来
连续型
边缘概率密度为:
- f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f_X(x) = \int_{-\infty}^{+\infty}f(x,y)dy fX(x)=∫−∞+∞f(x,y)dy
- f Y ( y ) = ∫ − ∞ + ∞ f ( x , y ) d x f_Y(y) = \int_{-\infty}^{+\infty}f(x,y)dx fY(y)=∫−∞+∞f(x,y)dx
而分布函数:
- F X ( x ) = F ( x , + ∞ ) = ∫ − ∞ x ∫ − ∞ + ∞ f ( t , y ) d y d t = ∫ − ∞ x f X ( t ) d t F_X(x) = F(x,+\infty) = \int_{-\infty}^x\int_{-\infty}^{+\infty}f(t,y)dy dt = \int_{-\infty}^x f_X(t)dt FX(x)=F(x,+∞)=∫−∞x∫−∞+∞f(t,y)dydt=∫−∞xfX(t)dt
- F Y ( y ) = ∫ − ∞ y f Y ( t ) d t F_Y(y) = \int_{-\infty}^y f_Y(t)dt FY(y)=∫−∞yfY(t)dt
期望
一维
-
离散型:对于分布律 P ( X = x k ) = p k , k = 1 , 2 , . . P(X=x_k)=p_k, k=1,2,.. P(X=xk)=pk,k=1,2,..,若级数 ∑ k = 1 ∞ x k p k \displaystyle\sum_{k=1}^\infty x_kp_k k=1∑∞xkpk收敛,则期望 E ( X ) = ∑ k = 1 ∞ x k p k E(X) = \displaystyle\sum_{k=1}^\infty x_kp_k E(X)=k=1∑∞xkpk
-
连续型:概率密度为 f ( x ) f(x) f(x),若积分 ∫ − ∞ + ∞ x f ( x ) d x \int_{-\infty}^{+\infty}xf(x)dx ∫−∞+∞xf(x)dx绝对收敛,则 E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X) = \int_{-\infty}^{+\infty}xf(x)dx E(X)=∫−∞+∞xf(x)dx
二维
-
离散型 : P ( X = x i , Y = y k ) = p i j P(X=x_i,Y=y_k) = p_{ij} P(X=xi,Y=yk)=pij,则 Z = g ( X , Y ) Z = g(X,Y) Z=g(X,Y)的期望 为: E ( Z ) = E [ g ( X , Y ) ] = ∑ j = 1 ∞ ∑ i = 1 ∞ g ( x i , y j ) p i , j E(Z) = E[g(X,Y)] = \displaystyle\sum_{j=1}^\infty \displaystyle\sum_{i=1}^\infty g(x_i,y_j)p_{i,j} E(Z)=E[g(X,Y)]=j=1∑∞i=1∑∞g(xi,yj)pi,j
-
连续: E ( Z ) = E ( g ( X , Y ) ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x , y ) f ( x , y ) d x d y E(Z) = E(g(X,Y)) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy E(Z)=E(g(X,Y))=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy
一些性质
- 对于常数, E ( C ) = C E(C) = C E(C)=C
- E ( C X ) = C E ( X ) E(CX) = CE(X) E(CX)=CE(X)
- E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y) = E(X)+E(Y) E(X+Y)=E(X)+E(Y)
- 如果 X , Y X,Y X,Y相互独立, E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)
方差
D ( X ) = E ( ( X − E ( X ) ) 2 ) = E ( X 2 ) − ( E ( X ) ) 2 D(X) = E((X-E(X))^2) = E(X^2)-(E(X))^2 D(X)=E((X−E(X))2)=E(X2)−(E(X))2
大数定理
在实验不变的条件下,重复多少次,随机事件的频率近似于它的概率
马尔科夫不等式
P ( X ≥ a ) ≤ E ( X ) a P(X\geq a) \leq\frac{E(X)}{a} P(X≥a)≤aE(X),其中 x > 0 , a > 0 x>0, a>0 x>0,a>0
切比雪夫不等式
P { ∣ X − E ( X ) ∣ ≥ ϵ } ≤ σ 2 ϵ 2 \Large P\{|X-E(X)|\geq \epsilon\} \leq \frac{\sigma^2}{\epsilon^2} P{∣X−E(X)∣≥ϵ}≤ϵ2σ2
或者
P { ∣ X − E ( X ) ∣ < ϵ } ≥ 1 − σ 2 ϵ 2 \Large P\{|X-E(X)|< \epsilon\} \geq 1-\frac{\sigma^2}{\epsilon^2} P{∣X−E(X)∣<ϵ}≥1−ϵ2σ2
使用马尔科夫不等式推导切比雪夫不等式,有:
P ( ∣ X − μ ∣ > a ) ≤ E ( ∣ X − μ ∣ ) a P(|X-\mu|>a) \leq \frac{E(|X-\mu|)}{a} P(∣X−μ∣>a)≤aE(∣X−μ∣),使用平方项消除绝对值,即有
P { ( X − μ ) 2 ≥ a 2 } ≤ E ( ( X − μ ) 2 ) a 2 = σ 2 a 2 \Large P\{(X-\mu)^2\geq a^2\} \leq \frac{E((X-\mu)^2)}{a^2} = \frac{\sigma^2}{a^2} P{(X−μ)2≥a2}≤a2E((X−μ)2)=a2σ2
中心极限定理
样本的平均值约等于总体的平均值 ,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布
最大后验概率估计
优化目标: μ ^ M A P = a r g max μ p ( μ ∣ X ) \hat \mu_{MAP} = arg\max_\mu p(\mu|X) μ^MAP=argmaxμp(μ∣X)
主要根据贝叶斯公式
μ
^
M
A
P
=
a
r
g
max
μ
p
(
μ
∣
X
)
=
a
r
g
max
μ
p
(
X
∣
μ
)
p
(
μ
)
p
(
X
)
=
a
r
g
max
μ
p
(
X
∣
μ
)
p
(
μ
)
\begin{align} \hat \mu_{MAP} &= arg\max_{\mu} p(\mu|X)\\ &=arg\max_\mu \frac{p(X|\mu)p(\mu)}{p(X)}\\ &=arg\max_\mu p(X|\mu)p(\mu) \end{align}
μ^MAP=argμmaxp(μ∣X)=argμmaxp(X)p(X∣μ)p(μ)=argμmaxp(X∣μ)p(μ)
其中
p
(
X
∣
μ
)
p(X|\mu)
p(X∣μ)即似然函数,
p
(
μ
)
p(\mu)
p(μ)是先验知识(比如服从什么分布)
求解依然是加上log将累乘变成累加,相比于极大似然估计加上了先验知识
3.需要记住的各种分布
0-1分布
分布律为:
X | 1 | 0 |
---|---|---|
P | p | 1-p |
其中 E ( X ) = p E(X) = p E(X)=p, D ( X ) = p ( 1 − p ) D(X) = p(1-p) D(X)=p(1−p)
二项分布
一个随机事件只有两种可能,发生的概率为 p p p,不发生概率为 1 − p 1-p 1−p
X为n次实验中事件发生的次数,则分布律:
P
{
X
=
k
}
=
C
n
k
p
k
(
1
−
p
)
n
−
k
P\{X=k\} = C_n^kp^k(1-p)^{n-k}
P{X=k}=Cnkpk(1−p)n−k
其中
E
(
X
)
=
n
p
E(X) = np
E(X)=np,
D
(
X
)
=
n
p
(
1
−
p
)
D(X) = np(1-p)
D(X)=np(1−p)
泊松分布
事件发生k次的分布律:
P
{
X
=
k
}
=
λ
k
k
!
e
−
λ
P\{X=k\} = \frac{\lambda^k}{k!}e^{-\lambda}
P{X=k}=k!λke−λ
其中
E
(
X
)
=
λ
E(X) = \lambda
E(X)=λ,
D
(
X
)
=
λ
D(X) = \lambda
D(X)=λ
均匀分布
概率密度:
f
(
x
)
=
{
1
b
−
a
,
a
<
x
<
b
0
,
其他
f(x) = \begin{cases} \frac{1}{b-a}, \ \ \ \ \ a<x<b\\ 0, \ \ \ \ \ \ \ \ \ 其他 \end{cases}
f(x)={b−a1, a<x<b0, 其他
其中
E
(
X
)
=
1
2
(
a
+
b
)
E(X) = \frac{1}{2}(a+b)
E(X)=21(a+b),
D
(
X
)
=
(
b
−
a
)
2
12
D(X) = \frac{(b-a)^2}{12}
D(X)=12(b−a)2
指数分布
概率密度:
f
(
x
)
=
{
1
θ
e
−
x
/
θ
,
x
>
0
0
,
x
≤
0
f(x) = \begin{cases} \frac{1}{\theta}e^{-x/\theta}, \ \ \ \ \ x>0\\ 0, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ x \leq 0 \end{cases}
f(x)={θ1e−x/θ, x>00, x≤0
其中
E
(
X
)
=
θ
E(X) = \theta
E(X)=θ,
D
(
X
)
=
θ
2
D(X) = \theta^2
D(X)=θ2
正态分布
密度函数:
f
(
x
∣
μ
,
σ
)
=
1
2
π
σ
2
e
x
p
(
(
π
−
μ
)
2
2
σ
2
)
f(x|\mu,\sigma) = \frac{1}{\sqrt{2\pi \sigma^2}}exp(\frac{(\pi-\mu)^2}{2\sigma^2})
f(x∣μ,σ)=2πσ21exp(2σ2(π−μ)2)
其中
E
(
X
)
=
μ
E(X)=\mu
E(X)=μ,
D
(
X
)
=
σ
2
D(X) = \sigma^2
D(X)=σ2
参考文献
主要来自唐宇迪的人工智能数学基础课程,用于快速复习概率论,B站挺多视频的,就是不知道哪个是原版,有兴趣可以B站搜索一波