文章目录
1.样本空间
定义:样本空间是一个随机试验所有可能结果的集合。比如:投掷一枚硬币,样本空间为:{正面,反面}。随机试验中的每个可能结果叫做样本点。
有些试验有两个或者多个的样本空间,比如:随机抽取一张扑克,样本空间可以是数字,可以是花色。这时候,如果要完整描述一张牌,就要使用到笛卡尔积。
χ × y = { < x , y > ∣ x ∈ χ ∧ y ∈ y } (式1) \chi\times\mathbb{y}=\{<x,y>\vert{x}\in\chi\land{y}\in{\mathbb{y}}\}\tag{式1} χ×y={<x,y>∣x∈χ∧y∈y}(式1)
2.事件和概率
随机事件或者(简称为事件):是指一个被赋予概率的事物集合,也就是样本空间中的一个子集。概率是指一个随机事件发生的可能性大小,介于0和1之间。
2.1 随机变量
在随机试验中,将试验的结果用 X X X表示,这个 X X X会随着试验结果的不同而变化,是样本点的一个函数。把这个数叫做随机变量。比如掷骰子:随机变量 X X X的取值为 { 1 , 2 , 3 , 4 , 5 , 6 } \{1,2,3,4,5,6\} {1,2,3,4,5,6}。
一个随机事件也可以定义多个随机变量。比如:在掷2个骰子的随机事件中,可以定义随机变量
X
X
X为获得点数之和,或者点数之差。分别记为:
X
和
Y
X和Y
X和Y
X
(
i
,
j
)
:
=
i
+
j
,
x
=
2
,
3
,
⋯
,
12
(式2)
X(i,j):=i+j,\qquad{x=2,3,\cdots,12}\tag{式2}
X(i,j):=i+j,x=2,3,⋯,12(式2)
Y ( i , j ) : = i − j , y = 0 , 1 , 2 , 3 , 4 , 5 (式3) Y(i,j):=i-j,\qquad{y=0,1,2,3,4,5}\tag{式3} Y(i,j):=i−j,y=0,1,2,3,4,5(式3)
其中, i , j i,j i,j分别表示两个骰子的点数。
2.1.1 离散随机变量
离散随机变量:如果随机变量
X
X
X所有可能取到的值是有限的可以列举的,有
N
N
N个有限值:
{
x
1
,
⋯
,
x
N
}
(式4)
\{x_1,\cdots,x_N\}\tag{式4}
{x1,⋯,xN}(式4)
这样一来,我们就把
X
X
X叫做离散随机变量。
记每一种可能的取值都有 x n x_n xn的概率, P ( X = x n ) = p ( x n ) ∀ n ∈ { 1 , ⋯ , N } P(X=x_n)=p(x_n)\qquad{\forall_n\in\{1,\cdots,N\}} P(X=xn)=p(xn)∀n∈{1,⋯,N}
这里面的
p
(
x
1
)
,
⋯
,
p
(
x
N
)
p(x_1),\cdots,p(x_N)
p(x1),⋯,p(xN)称为离散随机变量的概率分布,或者分布,满足:
∑
n
=
1
N
p
(
x
n
)
=
1
p
(
x
n
)
≥
0
,
∀
n
∈
{
1
,
⋯
,
N
}
(式5)
\sum_{n=1}^{N}p(x_n)=1 \qquad{p(x_n)\ge0,\forall_n\in\{1,\cdots,N\}}\tag{式5}
n=1∑Np(xn)=1p(xn)≥0,∀n∈{1,⋯,N}(式5)
常见的离散随机变量的概率分布有:
(1)伯努利分布:
在一次试验中,事件
A
A
A发生的概率为
μ
\mu
μ,则不发生的概率为:
1
−
μ
1-\mu
1−μ。使用
X
X
X表示事件
A
A
A出现的次数,则
X
X
X取值为0和1,分布表示如下:
p
(
x
)
=
μ
x
(
1
−
μ
)
(
1
−
x
)
(式6)
p(x)=\mu^x(1-\mu)^{(1-x)}\tag{式6}
p(x)=μx(1−μ)(1−x)(式6)
如上分布叫做伯努利分布,也叫做两点分布或者0-1分布。
(2)二项分布:
在
n
n
n次伯努利试验中,使用
X
X
X表示事件
A
A
A出现的次数,则
X
X
X取值为:
{
0
,
⋯
,
N
}
\{0,\cdots,N\}
{0,⋯,N},分布表示如下:
P
(
X
=
k
)
=
C
N
k
μ
k
(
1
−
μ
)
N
−
k
k
=
0
,
⋯
,
N
(式7)
P(X=k)=C_N^k{\mu^k(1-\mu)^{N-k}}\qquad{k=0,\cdots,N}\tag{式7}
P(X=k)=CNkμk(1−μ)N−kk=0,⋯,N(式7)
其中,
C
N
k
C_N^k
CNk表示二项式系数,表示从
N
N
N各元素中取出
k
k
k个元素,且不考虑其顺序的组合的总数。
2.1.2 连续随机变量
和离散型随机变量相比,不同之处在于:连续随机变量
X
X
X的取值是不可列举的,由全部实数或者由一部分区间组成,比如:
X
=
{
x
∣
a
≤
x
≤
b
}
,
−
∞
<
a
<
b
<
∞
(式8)
X=\{x\vert{a\le{x}\le{b}\}},\qquad{-\infty<a<b<\infty}\tag{式8}
X={x∣a≤x≤b},−∞<a<b<∞(式8)
这样子就把
X
X
X称之为连续随机变量 ,连续随机变量的取值是不可数及无穷尽的。
连续随机变量
X
X
X的概率分布一般使用概率密度函数
p
(
x
)
p(x)
p(x)来描述,
p
(
x
)
p(x)
p(x)可积,满足:
∫
−
∞
∞
p
(
x
)
d
x
=
1
(式9)
\int_{-\infty}^{\infty}p(x)dx=1\tag{式9}
∫−∞∞p(x)dx=1(式9)
常见的连续随机变量的概率分布有:
(1)均匀分布:
若
a
,
b
a,b
a,b为有限的数,
[
a
,
b
]
[a,b]
[a,b]上的均匀分布的概率密度函数定义如下:
p
(
x
)
=
{
1
b
−
a
a
≤
x
≤
b
0
x
<
a
或
者
x
>
b
(式10)
p(x)=\begin{cases}\cfrac{1}{b-a}\qquad{a\le{x}\le{b}}\\\quad0\qquad\quad{x<a或者x>b}\end{cases}\tag{式10}
p(x)=⎩⎨⎧b−a1a≤x≤b0x<a或者x>b(式10)
(2)正态分布:
正态分布也叫做高斯分布,应用领域很多,概率密度函数如下:
p
(
x
)
=
1
2
π
σ
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
(式11)
p(x)=\cfrac{1}{\sqrt{2\pi}\sigma}exp(-\cfrac{(x-\mu)^2}{2\sigma^2})\tag{式11}
p(x)=2πσ1exp(−2σ2(x−μ)2)(式11)
其中,
σ
>
0
\sigma>0
σ>0,
μ
和
σ
\mu和\sigma
μ和σ均为常数。如若,随机变量
X
X
X服从一个参数为$
\mu和\sigma$的概率分布,则简记为:
X
∼
N
(
μ
,
σ
2
)
(式12)
X\thicksim\mathcal{N}(\mu,\sigma^2)\tag{式12}
X∼N(μ,σ2)(式12)
当
μ
=
0
,
σ
=
1
\mu=0,\sigma=1
μ=0,σ=1时,称为标准正态分布。
均匀分布和正态分布的图示如下:
2.1.3 累积分布函数
对于一个随机变量
X
X
X,其累积分布函数是随机变量
X
X
X的取值小于等于
x
x
x的概率。
c
d
f
(
x
)
=
P
(
X
≤
x
)
(式13)
cdf(x)=P(X\le{x})\tag{式13}
cdf(x)=P(X≤x)(式13)
以连续随机变量
X
X
X为例,其累积分布函数定义如下:
c
d
f
(
x
)
=
∫
−
∞
x
p
(
t
)
d
t
(式14)
cdf(x)=\int_{-\infty}^{x}p(t)dt\tag{式14}
cdf(x)=∫−∞xp(t)dt(式14)
其中,
p
(
x
)
p(x)
p(x)为概率密度函数,标准正态分布和累积分布的概率密度函数如下:
2.2 随机向量
随机向量是指一组随机变量构成的向量。如: X 1 , X 2 , ⋯ , X k X_1,X_2,\cdots,X_k X1,X2,⋯,Xk为 K K K个随机变量,那么称 X = [ X 1 , X 2 , ⋯ , X k ] \boldsymbol{X}=[X_1,X_2,\cdots,X_k] X=[X1,X2,⋯,Xk]为一个 K K K维的随机向量。一维随机向量称为随机变量。
随机向量也分为:离散随机向量和连续随机向量。
2.2.1 离散随机向量
离散随机向量的联合概率分布为:
P
(
X
1
=
x
1
,
X
2
=
x
2
,
⋯
,
X
K
=
x
K
)
=
p
(
x
1
,
x
2
,
⋯
,
x
K
)
(式15)
P(X_1=x_1,X_2=x_2,\cdots,X_K=x_K)=p(x_1,x_2,\cdots,x_K)\tag{式15}
P(X1=x1,X2=x2,⋯,XK=xK)=p(x1,x2,⋯,xK)(式15)
其中,
x
k
∈
Ω
k
x_k\in{\Omega_k}
xk∈Ωk为变量
X
k
X_k
Xk的取值,
Ω
k
\Omega_k
Ωk为变量
X
k
X_k
Xk的样本空间。和离散随机变量类似有:
p
(
x
1
,
x
2
,
⋯
,
x
K
)
≥
0
,
∀
x
1
∈
Ω
1
,
x
2
∈
Ω
2
,
⋯
,
x
K
∈
Ω
K
(式16)
p(x_1,x_2,\cdots,x_K)\ge0,\qquad{\forall{x_1\in{\Omega_1},x_2\in{\Omega_2},\cdots,x_K\in{\Omega_K}}}\tag{式16}
p(x1,x2,⋯,xK)≥0,∀x1∈Ω1,x2∈Ω2,⋯,xK∈ΩK(式16)
∑ x 1 ∈ Ω 1 ∑ x 2 ∈ Ω 2 ⋯ ∑ x K ∈ Ω K p ( x 1 , x 2 , ⋯ , x K ) = 1 (式17) \sum_{x_1\in{\Omega_1}}\sum_{x_2\in\Omega_2}\cdots\sum_{x_K\in{\Omega_K}}p(x_1,x_2,\cdots,x_K)=1\tag{式17} x1∈Ω1∑x2∈Ω2∑⋯xK∈ΩK∑p(x1,x2,⋯,xK)=1(式17)
(1)多项分布:
多项分布是常见的离散向量概率分布,多项分布是二项分布在随机向量的推广。假设一个袋子中装了很多球,总共有
K
K
K个不同的颜色. 我们从袋子中取出
N
N
N个球. 每次取出一个球时,就在袋子中放入一个同样颜色的球. 这样保证同一颜色的球在不同试验中被取出的概率是相等的. 令
X
\boldsymbol{X}
X为一个
K
K
K维随机向量,每个元素
X
k
(
k
=
1
,
⋯
,
K
)
X_k(k=1,\cdots,K)
Xk(k=1,⋯,K)为取出的
N
N
N个球中颜色为
k
k
k的球的数量,则
X
X
X服从多项分布,其概率分布为:
p
(
x
1
,
⋯
,
x
K
∣
μ
)
=
N
!
x
1
!
⋯
x
K
!
μ
1
x
1
⋯
μ
K
x
K
(式18)
p(x_1,\cdots,x_K\vert\boldsymbol{\mu})=\cfrac{N!}{x_1!\cdots{x_K}!}\mu_1^{x_1}\cdots\mu_K^{x_K}\tag{式18}
p(x1,⋯,xK∣μ)=x1!⋯xK!N!μ1x1⋯μKxK(式18)
多项分布的概率分布用gamma函数表示如下:
p
(
x
1
,
⋯
,
x
K
∣
μ
)
=
Γ
(
∑
k
x
k
+
1
)
∏
k
Γ
(
x
k
+
1
)
∏
k
=
1
K
μ
k
x
k
(式19)
p(x_1,\cdots,x_K\vert\boldsymbol{\mu})=\cfrac{\Gamma(\sum_kx_k+1)}{\prod_k\Gamma(x_k+1)}\prod_{k=1}^{K}\mu_k^{x_k}\tag{式19}
p(x1,⋯,xK∣μ)=∏kΓ(xk+1)Γ(∑kxk+1)k=1∏Kμkxk(式19)
这种形式表示和狄利克雷分布类似,狄利克雷分布可以作为多项分布的共轭先验。
∫ 0 + ∞ x α − 1 e − x d x = Γ ( α ) (式20) \int_{0}^{+\infty}x^{\alpha-1}e^{-x}dx=\Gamma(\alpha)\tag{式20} ∫0+∞xα−1e−xdx=Γ(α)(式20)
例如: ∫ 0 + ∞ x 5 e − x d x = Γ ( 6 ) \int_{0}^{+\infty}x^{5}e^{-x}dx=\Gamma(6) ∫0+∞x5e−xdx=Γ(6)。
2.2.2 连续随机向量
一个
K
K
K维连续随机向量
X
\boldsymbol{X}
X的联合概率密度函数满足:
p
(
x
)
=
p
(
x
1
,
⋯
,
x
K
)
≥
0
(式21)
p(\boldsymbol{x})=p(x_1,\cdots,x_K)\ge0\tag{式21}
p(x)=p(x1,⋯,xK)≥0(式21)
∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x 1 , ⋯ , x K ) d x 1 ⋯ d x K = 1 (式22) \int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty}p(x_1,\cdots,x_K)dx_1\cdots{dx_K}=1\tag{式22} ∫−∞+∞⋯∫−∞+∞p(x1,⋯,xK)dx1⋯dxK=1(式22)
(1)多元正态分布:
也叫做多元高斯分布,如若
K
K
K维随机向量
X
=
[
X
1
,
⋯
,
X
K
]
T
\boldsymbol{X}=[X_1,\cdots,X_K]^T
X=[X1,⋯,XK]T服从
K
K
K元正态分布,其密度函数为:
p
(
x
)
=
1
(
2
π
)
n
/
2
∣
∑
∣
1
/
2
e
x
p
(
−
1
2
(
x
−
μ
)
T
∑
−
1
(
x
−
μ
)
)
(式23)
p(\boldsymbol{x})=\cfrac{1}{(2\pi)^{n/2}|\sum|^{1/2}}exp(-\cfrac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\bold{\sum}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}))\tag{式23}
p(x)=(2π)n/2∣∑∣1/21exp(−21(x−μ)T∑−1(x−μ))(式23)
其中,
μ
∈
R
K
\boldsymbol{\mu}\in{\mathbb{R}^K}
μ∈RK为多元正态分布的均值向量,
∑
∈
R
K
×
K
\boldsymbol{\sum}\in{\mathbb{R}^{K\times{K}}}
∑∈RK×K为多元正态分布的协方差矩阵,
∣
∑
∣
|\boldsymbol{\sum}|
∣∑∣为行列式。
(2)各项同性高斯分布:
如果一个多元高斯分布的协方差矩阵简化为 ∑ = σ 2 I \boldsymbol{\sum}=\sigma^2\boldsymbol{I} ∑=σ2I,即每一个维度随机变量都独立而且方差相同。那么这个多元高斯分布就称为:各项同性高斯分布。
(3)狄利克雷分布:
一个
K
K
K维随机向量
X
\boldsymbol{X}
X的狄利克雷分布为:
p
(
x
∣
α
)
=
Γ
(
α
0
)
Γ
(
α
1
)
⋯
Γ
(
α
k
)
∏
k
=
1
K
x
k
α
k
−
1
(式24)
p(\boldsymbol{x}|\boldsymbol{\alpha})=\cfrac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_k)}\prod_{k=1}^{K}x_k^{\alpha_{k-1}}\tag{式24}
p(x∣α)=Γ(α1)⋯Γ(αk)Γ(α0)k=1∏Kxkαk−1(式24)
其中的
α
=
[
α
1
,
⋯
,
α
k
]
T
\boldsymbol{\alpha}=[\alpha_1,\cdots,\alpha_k]^T
α=[α1,⋯,αk]T为狄利克雷分布的参数。
2.3 边际分布
对于二维离散随机向量
(
X
,
Y
)
(X,Y)
(X,Y),假设
X
X
X取值空间为
Ω
x
\Omega_x
Ωx,
Y
Y
Y取值空间为
Ω
y
\Omega_y
Ωy,则其联合概率分布满足:
p
(
x
,
y
)
≥
0
,
∑
x
∈
Ω
x
∑
y
∈
Ω
y
p
(
x
,
y
)
=
1
(式25)
p(x,y)\ge0,\qquad{\sum_{x\in\Omega_x}\sum_{y\in{\Omega_y}}p(x,y)=1}\tag{式25}
p(x,y)≥0,x∈Ωx∑y∈Ωy∑p(x,y)=1(式25)
对于联合概率分布
p
(
x
,
y
)
p(x,y)
p(x,y),分别对
x
x
x和
y
y
y进行求和。
(1)对于固定的
x
x
x:
∑
y
∈
Ω
y
p
(
x
,
y
)
=
p
(
x
)
(式26)
\sum_{y\in\Omega_y}p(x,y)=p(x)\tag{式26}
y∈Ωy∑p(x,y)=p(x)(式26)
(2)对于固定的
y
y
y:
∑
x
∈
Ω
x
p
(
x
,
y
)
=
p
(
y
)
(式27)
\sum_{x\in\Omega_x}p(x,y)=p(y)\tag{式27}
x∈Ωx∑p(x,y)=p(y)(式27)
由于离散随机向量
(
X
,
Y
)
(X,Y)
(X,Y)的联合概率分布,对
Y
Y
Y的所有值进行求和得到
X
X
X的概率分布,对
X
X
X的所有值进行求和得到
Y
Y
Y的概率分布.这里
p
(
x
)
和
p
(
y
)
p(x)和p(y)
p(x)和p(y)就称为
p
(
x
,
y
)
p(x,y)
p(x,y)的边际分布。
对于二维连续随机向量
(
X
,
Y
)
(X,Y)
(X,Y),其边际分布为:
p
(
x
)
=
∫
−
∞
+
∞
p
(
x
,
y
)
d
y
(式28)
p(x)=\int_{-\infty}^{+\infty}p(x,y)dy\tag{式28}
p(x)=∫−∞+∞p(x,y)dy(式28)
p ( y ) = ∫ − ∞ + ∞ p ( x , y ) d x (式29) p(y)=\int_{-\infty}^{+\infty}p(x,y)dx\tag{式29} p(y)=∫−∞+∞p(x,y)dx(式29)
对于一个二元正态分布的边际分布任然为正态分布。
2.4 条件概率分布
对于离散随机向量
(
X
,
Y
)
(X,Y)
(X,Y),已知
X
=
x
X=x
X=x的条件下,随机变量
Y
=
y
Y=y
Y=y的条件概率为:
p
(
y
∣
x
)
:
=
P
(
Y
=
y
∣
X
=
x
)
=
p
(
x
,
y
)
p
(
x
)
(式30)
p(y|x):=P(Y=y|X=x)=\cfrac{p(x,y)}{p(x)}\tag{式30}
p(y∣x):=P(Y=y∣X=x)=p(x)p(x,y)(式30)
上式定义了随机变量
Y
Y
Y关于随机变量
X
X
X的条件概率分布,简称:条件分布。
已知
x
x
x:
p
(
y
∣
x
)
=
p
(
x
,
y
)
p
(
x
)
(式31)
p(y|x)=\cfrac{p(x,y)}{p(x)}\tag{式31}
p(y∣x)=p(x)p(x,y)(式31)
已知
y
y
y:
p
(
x
∣
y
)
=
p
(
x
,
y
)
p
(
y
)
(式32)
p(x|y)=\cfrac{p(x,y)}{p(y)}\tag{式32}
p(x∣y)=p(y)p(x,y)(式32)
2.5 贝叶斯定理
通过
(
式
31
)
和
(
式
32
)
(式31)和(式32)
(式31)和(式32),两个条件概率
p
(
x
∣
y
)
和
p
(
y
∣
x
)
p(x|y)和p(y|x)
p(x∣y)和p(y∣x)之间的关系为:
p
(
y
∣
x
)
=
p
(
x
∣
y
)
p
(
y
)
p
(
x
)
(式33)
p(y|x)=\cfrac{p(x|y)p(y)}{p(x)}\tag{式33}
p(y∣x)=p(x)p(x∣y)p(y)(式33)
这个公式就是贝叶斯定理,或者说是贝叶斯公式。
2.6 独立与条件独立
对于两个离散(或者连续)的随机变量
X
和
Y
X和Y
X和Y,如果其联合概率(或者联合概率密度函数)满足:
p
(
x
,
y
)
=
p
(
x
)
p
(
y
)
(式34)
p(x,y)=p(x)p(y)\tag{式34}
p(x,y)=p(x)p(y)(式34)
就称
X
和
Y
X和Y
X和Y相互独立。
对于三个离散(或者连续)随机变量
X
,
Y
和
Z
X,Y和Z
X,Y和Z,如果条件概率(或者联合概率密度函数)
p
(
x
,
y
∣
z
)
p(x,y|z)
p(x,y∣z)满足:
p
(
x
,
y
∣
z
)
=
p
(
x
∣
z
)
p
(
y
∣
z
)
(式35)
p(x,y|z)=p(x|z)p(y|z)\tag{式35}
p(x,y∣z)=p(x∣z)p(y∣z)(式35)
则称,在给定变量
Z
Z
Z时,
X
和
Y
X和Y
X和Y条件独立。