PS:这部分大学概率论应该都学过,想想还是应该做下笔记复习一下,本章公式符号采用花书符号,可能和大学课本上符号有些许不同。
3.3 概率分布
3.3.1 离散型变量和概率质量函数
-
概率质量函数(probability mass function) PMF
形如:P ( x = x i ) = 0.5 \qquad \qquad P(\mathbf x= x_{i})=0.5 P(x=xi)=0.5
-
归一化(normalized)
做到:
∑ x ∈ x P ( x ) = 1 \qquad \qquad \sum_{x \in \mathbf x}P(x) =1 ∑x∈xP(x)=1 -
联合概率分布(joint probability distribution)
P ( x = x , y = y ) \qquad \qquad P(\mathbf x =x,\mathbf y = y) P(x=x,y=y)
-
均匀分布(uniform distribution)
离散型随机变量 x x x存在 k k k个状态
P ( x = x i ) = 1 k \qquad\qquad \qquad P(\mathbf x = x_{i}) = \frac {1}{k} P(x=xi)=k1
3.3.2 连续性变量和概率密度函数
- 概率密度函数(probability desity function,
P
D
F
PDF
PDF)
– 定义域为 x \mathbf x x所有情况的集合
– ∀ x ∈ x , p ( x ) ≥ 0 \forall x \in \mathbf x, p(x) \geq0 ∀x∈x,p(x)≥0 概率不可能小于0
– ∫ p ( x ) d x = 1 \int p(x)dx =1 ∫p(x)dx=1 概率总体为1
其 x x x是连续的,通过对于区间 [ a , b ] [a,b] [a,b]内的 P D F PDF PDF函数求积分获得 x ∈ [ a , b ] x \in [a,b] x∈[a,b]的概率:
∫ [ a , b ] p ( x ) d x \qquad \int_{[a,b]}p(x)dx ∫[a,b]p(x)dx
3.4 边缘概率
- 边缘概率分布(marginal probablity distribution)
在获知一个联合概率分布 P ( x , y ) P(x,y) P(x,y)时,希望获知其中子集 x x x或 y y y的概率分布。
对于其另一个子集求积分即可,以求 y y y的积分为例:
p ( x ) = ∫ p ( x , y ) d y \qquad \qquad p(x) = \int p(x,y)dy p(x)=∫p(x,y)dy
3.5 条件概率
- 条件概率(conditional probability)
在某个事件A发生时,B发生的概率
A: x = x \mathbf x = x\qquad x=x B: y = y \mathbf y =y y=y
条件概率: P ( B ∣ A ) = P ( y = y ∣ x = x ) = P ( x = x , y = y ) P ( x = x ) P(B | A) = P(\mathbf y =y |\mathbf x = x) = \frac {P(\mathbf x =x,\mathbf y = y)}{P(\mathbf x =x)} P(B∣A)=P(y=y∣x=x)=P(x=x)P(x=x,y=y)
3.6 条件模型的链式法则
- 链式法则(chain rule)或乘法法则(product rule),
套娃法则
任何多维随机变量的联合概率分布,可以分解成只有一个变量的条件概率相乘的模式。
P ( a , b , c ) = P ( a ∣ b , c ) P ( b , c ) P(a,b,c) = P(a|b,c)P(b,c) P(a,b,c)=P(a∣b,c)P(b,c)
P ( b , c ) = P ( b ∣ c ) ( c ) P(b,c) = P(b|c)(c) P(b,c)=P(b∣c)(c)
P ( a , b , c ) = P ( a ∣ b , c ) P ( b ∣ c ) P ( c ) P(a,b,c) = P(a|b,c)P(b|c)P(c) P(a,b,c)=P(a∣b,c)P(b∣c)P(c)
3.7 独立性与条件独立性
-
相互独立(independent)
联合概率分布可以直接改写为子集概率分布相乘的形式
p ( x = x , y = y ) = p ( x = x ) p ( y = y ) p(\mathbf x = x,\mathbf y =y) = p(\mathbf x =x)p(\mathbf y =y) p(x=x,y=y)=p(x=x)p(y=y) -
条件独立(conditional independent)
形式上: x x x与 y y y的分布对于 z z z的每个值都能写成乘积的形式
p ( x = x , y = y ∣ z = z ) = p ( x = x ∣ z = z ) p ( y = y ∣ z = z ) p(\mathbf x = x, \mathbf y =y \ | \ \mathbf z =z) = p(\mathbf x =x \ | \ \mathbf z =z)p(\mathbf y =y \ | \ \mathbf z =z) p(x=x,y=y ∣ z=z)=p(x=x ∣ z=z)p(y=y ∣ z=z)
意义上:在事件 z z z发生时,事件 x x x与 y y y相互无关
如下图:小明与小红不会互相通知,相互无关
3.8 期望,方差与协方差
-
期望(expectation)
具有线性
离散型:
∑ x P ( x ) f ( x ) \sum_{x}P(x)f(x) ∑xP(x)f(x) , 其中 f ( x ) f(x) f(x)是一组离散的值,理解为 x 1 , x 2 , x 3 x_{1},x_{2},x_{3} x1,x2,x3等的具体值,就是 X \color{red} X X
连续型:
∫ p ( x ) f ( x ) d x \int p(x)f(x)dx ∫p(x)f(x)dx, 其中 f ( x ) f(x) f(x)为特定函数
※ 区分均值(mean)与期望(expectation)
均值:已知样本数据,未知概率分布
期望:已知概率分布,未知实验数据 -
方差(variance)标准差(standard devariance)与协方差(convariance)
方差:对于 x x x的概率分布采样时,其函数值的差异大小
V a r ( f ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] 2 ) ] \qquad \qquad Var(f(x)) =\mathbb E[(f(x)-\mathbb E[f(x)]^{2})] Var(f(x))=E[(f(x)−E[f(x)]2)]
协方差:衡量两个变量线性相关的程度
C o n v ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( x ) − E [ g ( x ) ] ) ] \qquad Conv(f(x),g(y)) = \mathbb E[(f(x)-\mathbb E[f(x)])(g(x) - \mathbb E[g(x)])] Conv(f(x),g(y))=E[(f(x)−E[f(x)])(g(x)−E[g(x)])]
协方差绝对值相差大 -》 变量值大
协方差为正 -> 正相关
协方差为负 -> 负相关
※ 区分相关系数(correlation)独立性与协方差
相关系数: ρ = C o n v ( X , Y ) σ X σ Y \rho = \frac {Conv(X,Y)}{\sigma_{X}\sigma_{Y}} ρ=σXσYConv(X,Y)
- 相关系数与协方差:相关系数可以看做是一种标准化,归一化的协方差,同样用于衡量变量之间线性相关的程度。
- 相关系数的特点:能够消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。就是标准化的作用。。。
- 独立性:独立性要求不仅没有线性的相关,并且需要排除非线性的相关。相关系数只是衡量线性的相关。所以,独立–>相关系数为0,相关系数为0 -×->独立
详见:如何通俗易懂地解释「协方差」与「相关系数」的概念? - GRAYLAMB的回答 - 知乎
3.9 常用概率分布
3.9.1 伯努利分布(Bernoulli distribution)
就是N=1时的二项式分布, ϕ \phi ϕ为变量等于1的概率
P
(
x
=
x
)
=
ϕ
x
(
1
−
ϕ
)
1
−
x
\qquad \qquad P(\mathbf x = x)=\phi^{x}(1-\phi)^{1-x}\quad
P(x=x)=ϕx(1−ϕ)1−x 其中
x
∈
{
0
,
1
}
x \in \lbrace0,1\rbrace
x∈{0,1}
E
x
[
x
]
=
ϕ
\qquad \qquad \mathbb E_{\mathbf x}[\mathbf x] = \phi
Ex[x]=ϕ
V
a
r
x
(
x
)
=
ϕ
(
1
−
ϕ
)
\qquad \qquad Var_{x}(\mathbf x) = \phi(1-\phi)
Varx(x)=ϕ(1−ϕ)
3.9.2 二/多项式分布(multiboulli distribution)
就是N重伯努利分布,取
x
\mathbf x
x的取值可能为0,1,2,…,n,
p
p
p为单次实验发生的概率
P
(
x
=
x
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
.
.
.
.
,
n
\qquad \qquad P(\mathbf x = x) = \binom{n}{k}p^{k}{(1-p)}^{n-k},k=0,1,....,n
P(x=x)=(kn)pk(1−p)n−k,k=0,1,....,n
3.9.3 高斯分布(Gaussian distribution)
就是正态分布(normal distribution)
由均值:
μ
∈
R
\mu \in \mathbb R
μ∈R
标准差:
σ
∈
(
0
,
∞
)
\sigma \in (0,\infty)
σ∈(0,∞) 决定
N ( x ; μ , σ 2 ) = 1 2 π σ 2 e x p ( − 1 2 σ 2 ( x − μ ) 2 ) \qquad \qquad N(x;\mu,\sigma^2) = \sqrt{\frac {1}{2\pi\sigma^2}}\mathbf {exp}(- \frac {1}{2\sigma^2}(x-\mu)^2) N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
将方差的倒数
1
σ
2
\frac {1}{\sigma^2}
σ21设置为
β
\beta
β(精度:precision),可获得更高效的参数化分布公式。不知道哪里更高效了 公式:略
以下为标准正态分布(standard normal distribution)图像(均值为0,方差为1),其中最大值在
x
=
μ
x = \mu
x=μ时取得,
x
=
μ
±
σ
x = \mu \pm\sigma
x=μ±σ为拐点
为什么采用高斯分布?
- 中心极限定理(central limit theorem)表明,很多独立随机变量近似服从高斯分布。
- 高斯分布在方差相同时,在实数上具有最大的不确定性。即对模型加入先验知识最少的分布。
多维正态分布(multivariate normal distribution)
N ( x ; μ , Σ ) = 1 ( 2 π ) n d e t ( Σ ) e x p ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) \qquad \qquad N(x;\mu,\Sigma) = \sqrt{\frac {1}{(2\pi)^{n}det(\Sigma)}}\mathbf {exp}(- \frac {1}{2}(x-\mu)^\top\Sigma^{-1}(x-\mu)) N(x;μ,Σ)=(2π)ndet(Σ)1exp(−21(x−μ)⊤Σ−1(x−μ))
其中
μ
\mu
μ为均值向量,
Σ
\Sigma
Σ为正定,对称的协方差矩阵
可以对
Σ
\Sigma
Σ求逆获得精度矩阵(precision matrix)
β
\beta
β替代,公式略
各项同性高斯分布(isotropic Gaussian distribution)
利用(标量×单位阵)取代(协方差矩阵)
3.9.4 指数分布(exponential distribution)与拉普拉斯分布(Laplace distribution)
- 指数分布
主要用于描述事件的时间间隔的概率–>来电间隔,网站访问间隔等
边界点(sharp point)为x =0处,概率密度函数如下。
p
(
x
;
λ
)
=
λ
e
x
p
(
−
λ
x
)
x
≥
0
\qquad \qquad p(x;\lambda) = \lambda\mathbf {exp}(-\lambda x)\quad x\geq0
p(x;λ)=λexp(−λx)x≥0
p
(
x
;
λ
)
=
0
x
<
0
\qquad \qquad p(x;\lambda) = 0\qquad \qquad \quad x<0
p(x;λ)=0x<0
- 拉普拉斯分布
拉普拉斯分布可以看做是将两个指数分布拼接在一起的情况
相较于正态分布,拉普拉斯分布的峰更加明显,两侧则相对平滑。
公式如下,其中 μ \mu μ为峰的位置参数, γ \gamma γ为尺度参数
L
a
p
l
a
c
e
(
x
;
μ
,
γ
)
=
1
2
γ
e
x
p
(
−
∣
x
−
μ
∣
γ
)
\qquad \qquad \qquad Laplace(x;\mu,\gamma)=\frac {1}{2\gamma}\mathbf {exp(-\frac {|x-\mu|}{\gamma})}
Laplace(x;μ,γ)=2γ1exp(−γ∣x−μ∣)
3.9.5 Dirac分布与经验分布(empirical distribution)
- 狄拉克-德尔塔函数(Dirac delta function)
除了0以外的所有点的值为0,位于0时值为正无穷,所以当x趋近于1时,积分为1
δ
(
x
)
=
{
∞
,
x
=
0
0
,
x
≠
0
\delta(x)= \begin{cases} \infty, & x =0 \\ 0, & x\neq 0 \end{cases}
δ(x)={∞,0,x=0x=0
∫
−
∞
∞
δ
(
x
)
d
x
=
1
\int_{- \infty}^{\infty} \delta(x)dx = 1
∫−∞∞δ(x)dx=1
- 狄拉克分布
概率分布集中于一点,通过左右平移 μ \mu μ个单位的Dirac-delta函数获得。
属于广义函数(generalized function),其主要参考积分性质
p ( x ) = δ ( x − μ ) p(x) = \delta(x-\mu) p(x)=δ(x−μ) - 经验分布
通过对连续型函数采样获得 m m m个点, x 1 x^1 x1… x m x^m xm后,以概率密度 1 m \frac {1} {m} m1分配到每一个点上。
对其分布求积分,获得分布函数,根据Glivenko-Cantelli定理,此时分布函数能够逼近原函数。
可以看做是在连续型上的多次试验得到离散型上二项式分布的概率
p ^ ( x ) = 1 m ∑ i = 1 m δ ( x − x ( i ) ) \hat{p}(x) =\frac {1}{m}\sum_{i=1}^{m}\delta(x -x^{(i)}) p^(x)=m1i=1∑mδ(x−x(i))
如下图,可见分布函数(蓝色),即积分值,随着以概率密度 1 m \frac {1} {m} m1分配到每一个点上的值(黑色)增长,最后逼近原函数(灰色)。
3.9.6 分布的混合
-
混合分布(mixture distribution)
由组件(component)分布构成
组合多种概率分布
潜变量(latent variable),指不能直接观测到的随机变量
如下,其中 P ( c ) P(c) P(c)即对各组件的多项式分布,其中 c c c即为潜变量,联合各个组件分布,影响总体分布结果。
P ( x ) = ∑ i P ( c = i ) P ( x ∣ c = i ) P(x) = \sum_{i} P(c =i)P(\mathbf x | c =i) P(x)=i∑P(c=i)P(x∣c=i) -
高斯混合模型(Gaussian Mixture Model)
组件分布为不同的高斯分布,分别具有均值 μ ( i ) \mu^{(i)} μ(i)与协方差矩阵 Σ ( i ) \Sigma^{(i)} Σ(i)。
可以共享参数,并且可以采用各项同性协方差矩阵。 -
万能近似器(universal approximator)
高斯混合模型给出了每个组件 i i i的先验概率(prior probability) P ( c = i ) P(c=i) P(c=i)。对于任何平滑的概率密度,能够用足够多组件的高斯混合模型逼近。多维中的傅里叶?
吐槽
5.4日写完了上篇,总体上是概率论课上学过的一些内容,这也是我第一次写CSDN博客,浪费了两年半的时间没有记录自己的学习历程,感觉有些遗憾,如果有错误的话欢迎指正。
2018年开始接触深度学习,感觉正在调包侠的路上狂奔,距离成为社畜还有一年半,语言,算法,刷题,要补的不少,希望基础能打牢,面试时候不要那么尴尬…