《深度学习》花书学习--第三章--概率与信息论[上]


PS:这部分大学概率论应该都学过,想想还是应该做下笔记复习一下,本章公式符号采用花书符号,可能和大学课本上符号有些许不同。

3.3 概率分布

3.3.1 离散型变量和概率质量函数

  • 概率质量函数(probability mass function) PMF
    形如:

    P ( x = x i ) = 0.5 \qquad \qquad P(\mathbf x= x_{i})=0.5 P(x=xi)=0.5

  • 归一化(normalized)
    做到:
    ∑ x ∈ x P ( x ) = 1 \qquad \qquad \sum_{x \in \mathbf x}P(x) =1 xxP(x)=1

  • 联合概率分布(joint probability distribution)

    P ( x = x , y = y ) \qquad \qquad P(\mathbf x =x,\mathbf y = y) P(x=x,y=y)

  • 均匀分布(uniform distribution)
    离散型随机变量 x x x存在 k k k个状态

P ( x = x i ) = 1 k \qquad\qquad \qquad P(\mathbf x = x_{i}) = \frac {1}{k} P(x=xi)=k1

3.3.2 连续性变量和概率密度函数

  • 概率密度函数(probability desity function, P D F PDF PDF)
    – 定义域为 x \mathbf x x所有情况的集合
    ∀ x ∈ x , p ( x ) ≥ 0 \forall x \in \mathbf x, p(x) \geq0 xx,p(x)0 概率不可能小于0
    ∫ p ( x ) d x = 1 \int p(x)dx =1 p(x)dx=1 概率总体为1
     
    x x x是连续的,通过对于区间 [ a , b ] [a,b] [a,b]内的 P D F PDF PDF函数求积分获得 x ∈ [ a , b ] x \in [a,b] x[a,b]的概率:
    ∫ [ a , b ] p ( x ) d x \qquad \int_{[a,b]}p(x)dx [a,b]p(x)dx

3.4 边缘概率

  • 边缘概率分布(marginal probablity distribution)
     
    在获知一个联合概率分布 P ( x , y ) P(x,y) P(x,y)时,希望获知其中子集 x x x y y y的概率分布。
    对于其另一个子集求积分即可,以求 y y y的积分为例:

p ( x ) = ∫ p ( x , y ) d y \qquad \qquad p(x) = \int p(x,y)dy p(x)=p(x,y)dy

3.5 条件概率

  • 条件概率(conditional probability)
    在某个事件A发生时,B发生的概率
    A: x = x \mathbf x = x\qquad x=x B: y = y \mathbf y =y y=y
    条件概率: P ( B ∣ A ) = P ( y = y ∣ x = x ) = P ( x = x , y = y ) P ( x = x ) P(B | A) = P(\mathbf y =y |\mathbf x = x) = \frac {P(\mathbf x =x,\mathbf y = y)}{P(\mathbf x =x)} P(BA)=P(y=yx=x)=P(x=x)P(x=x,y=y)

3.6 条件模型的链式法则

  • 链式法则(chain rule)或乘法法则(product rule),套娃法则
    任何多维随机变量的联合概率分布,可以分解成只有一个变量的条件概率相乘的模式。
    P ( a , b , c ) = P ( a ∣ b , c ) P ( b , c ) P(a,b,c) = P(a|b,c)P(b,c) P(a,b,c)=P(ab,c)P(b,c)
    P ( b , c ) = P ( b ∣ c ) ( c ) P(b,c) = P(b|c)(c) P(b,c)=P(bc)(c)
    P ( a , b , c ) = P ( a ∣ b , c ) P ( b ∣ c ) P ( c ) P(a,b,c) = P(a|b,c)P(b|c)P(c) P(a,b,c)=P(ab,c)P(bc)P(c)

3.7 独立性与条件独立性

  • 相互独立(independent)
    联合概率分布可以直接改写为子集概率分布相乘的形式
    p ( x = x , y = y ) = p ( x = x ) p ( y = y ) p(\mathbf x = x,\mathbf y =y) = p(\mathbf x =x)p(\mathbf y =y) p(x=x,y=y)=p(x=x)p(y=y)

  • 条件独立(conditional independent)
    形式上 x x x y y y的分布对于 z z z的每个值都能写成乘积的形式
    p ( x = x , y = y   ∣   z = z ) = p ( x = x   ∣   z = z ) p ( y = y   ∣   z = z ) p(\mathbf x = x, \mathbf y =y \ | \ \mathbf z =z) = p(\mathbf x =x \ | \ \mathbf z =z)p(\mathbf y =y \ | \ \mathbf z =z) p(x=x,y=y  z=z)=p(x=x  z=z)p(y=y  z=z)
     
    意义上:在事件 z z z发生时,事件 x x x y y y相互无关
    如下图:小明与小红不会互相通知,相互无关

z: 火警响了
x: 小明去报警
y: 小红去报警

3.8 期望,方差与协方差

  • 期望(expectation)
    具有线性
    离散型:
    ∑ x P ( x ) f ( x ) \sum_{x}P(x)f(x) xP(x)f(x) , 其中 f ( x ) f(x) f(x)是一组离散的值,理解为 x 1 , x 2 , x 3 x_{1},x_{2},x_{3} x1,x2,x3等的具体值,就是 X \color{red} X X
    连续型:
    ∫ p ( x ) f ( x ) d x \int p(x)f(x)dx p(x)f(x)dx, 其中 f ( x ) f(x) f(x)为特定函数
     
    区分均值(mean)与期望(expectation)
    均值:已知样本数据,未知概率分布
    期望:已知概率分布,未知实验数据

  • 方差(variance)标准差(standard devariance)与协方差(convariance)
    方差:对于 x x x的概率分布采样时,其函数值的差异大小
     
    V a r ( f ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] 2 ) ] \qquad \qquad Var(f(x)) =\mathbb E[(f(x)-\mathbb E[f(x)]^{2})] Var(f(x))=E[(f(x)E[f(x)]2)]
     
    协方差:衡量两个变量线性相关的程度
     
    C o n v ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( x ) − E [ g ( x ) ] ) ] \qquad Conv(f(x),g(y)) = \mathbb E[(f(x)-\mathbb E[f(x)])(g(x) - \mathbb E[g(x)])] Conv(f(x),g(y))=E[(f(x)E[f(x)])(g(x)E[g(x)])]
     
    协方差绝对值相差大 -》 变量值大
    协方差为正 -> 正相关
    协方差为负 -> 负相关
     
    区分相关系数(correlation)独立性与协方差
    相关系数: ρ = C o n v ( X , Y ) σ X σ Y \rho = \frac {Conv(X,Y)}{\sigma_{X}\sigma_{Y}} ρ=σXσYConv(X,Y)

  1. 相关系数与协方差:相关系数可以看做是一种标准化,归一化的协方差,同样用于衡量变量之间线性相关的程度。
  2. 相关系数的特点:能够消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。就是标准化的作用。。。
  3. 独立性:独立性要求不仅没有线性的相关,并且需要排除非线性的相关。相关系数只是衡量线性的相关。所以,独立–>相关系数为0,相关系数为0 -×->独立
    详见:如何通俗易懂地解释「协方差」与「相关系数」的概念? - GRAYLAMB的回答 - 知乎

3.9 常用概率分布

3.9.1 伯努利分布(Bernoulli distribution)

就是N=1时的二项式分布, ϕ \phi ϕ为变量等于1的概率

P ( x = x ) = ϕ x ( 1 − ϕ ) 1 − x \qquad \qquad P(\mathbf x = x)=\phi^{x}(1-\phi)^{1-x}\quad P(x=x)=ϕx(1ϕ)1x 其中 x ∈ { 0 , 1 } x \in \lbrace0,1\rbrace x{0,1}
E x [ x ] = ϕ \qquad \qquad \mathbb E_{\mathbf x}[\mathbf x] = \phi Ex[x]=ϕ
V a r x ( x ) = ϕ ( 1 − ϕ ) \qquad \qquad Var_{x}(\mathbf x) = \phi(1-\phi) Varx(x)=ϕ(1ϕ)

3.9.2 二/多项式分布(multiboulli distribution)

就是N重伯努利分布,取 x \mathbf x x的取值可能为0,1,2,…,n, p p p为单次实验发生的概率
P ( x = x ) = ( n k ) p k ( 1 − p ) n − k , k = 0 , 1 , . . . . , n \qquad \qquad P(\mathbf x = x) = \binom{n}{k}p^{k}{(1-p)}^{n-k},k=0,1,....,n P(x=x)=(kn)pk(1p)nk,k=0,1,....,n

3.9.3 高斯分布(Gaussian distribution)

就是正态分布(normal distribution)
由均值: μ ∈ R \mu \in \mathbb R μR
标准差: σ ∈ ( 0 , ∞ ) \sigma \in (0,\infty) σ(0,) 决定

N ( x ; μ , σ 2 ) = 1 2 π σ 2 e x p ( − 1 2 σ 2 ( x − μ ) 2 ) \qquad \qquad N(x;\mu,\sigma^2) = \sqrt{\frac {1}{2\pi\sigma^2}}\mathbf {exp}(- \frac {1}{2\sigma^2}(x-\mu)^2) N(x;μ,σ2)=2πσ21 exp(2σ21(xμ)2)

将方差的倒数 1 σ 2 \frac {1}{\sigma^2} σ21设置为 β \beta β(精度:precision),可获得更高效的参数化分布公式。不知道哪里更高效了 公式:略

以下为标准正态分布(standard normal distribution)图像(均值为0,方差为1),其中最大值在 x = μ x = \mu x=μ时取得, x = μ ± σ x = \mu \pm\sigma x=μ±σ为拐点
在这里插入图片描述

为什么采用高斯分布?

  • 中心极限定理(central limit theorem)表明,很多独立随机变量近似服从高斯分布。
  • 高斯分布在方差相同时,在实数上具有最大的不确定性。即对模型加入先验知识最少的分布。

多维正态分布(multivariate normal distribution)

N ( x ; μ , Σ ) = 1 ( 2 π ) n d e t ( Σ ) e x p ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) \qquad \qquad N(x;\mu,\Sigma) = \sqrt{\frac {1}{(2\pi)^{n}det(\Sigma)}}\mathbf {exp}(- \frac {1}{2}(x-\mu)^\top\Sigma^{-1}(x-\mu)) N(x;μ,Σ)=(2π)ndet(Σ)1 exp(21(xμ)Σ1(xμ))

其中 μ \mu μ为均值向量, Σ \Sigma Σ为正定,对称的协方差矩阵
可以对 Σ \Sigma Σ求逆获得精度矩阵(precision matrix) β \beta β替代,公式略

各项同性高斯分布(isotropic Gaussian distribution)
利用(标量×单位阵)取代(协方差矩阵)

3.9.4 指数分布(exponential distribution)与拉普拉斯分布(Laplace distribution)

  • 指数分布
    主要用于描述事件的时间间隔的概率–>来电间隔,网站访问间隔等
    边界点(sharp point)为x =0处,概率密度函数如下。

p ( x ; λ ) = λ e x p ( − λ x ) x ≥ 0 \qquad \qquad p(x;\lambda) = \lambda\mathbf {exp}(-\lambda x)\quad x\geq0 p(x;λ)=λexp(λx)x0
p ( x ; λ ) = 0 x < 0 \qquad \qquad p(x;\lambda) = 0\qquad \qquad \quad x<0 p(x;λ)=0x<0

在这里插入图片描述

 

  • 拉普拉斯分布
    拉普拉斯分布可以看做是将两个指数分布拼接在一起的情况
    相较于正态分布,拉普拉斯分布的峰更加明显,两侧则相对平滑。
    公式如下,其中 μ \mu μ为峰的位置参数, γ \gamma γ为尺度参数

L a p l a c e ( x ; μ , γ ) = 1 2 γ e x p ( − ∣ x − μ ∣ γ ) \qquad \qquad \qquad Laplace(x;\mu,\gamma)=\frac {1}{2\gamma}\mathbf {exp(-\frac {|x-\mu|}{\gamma})} Laplace(x;μ,γ)=2γ1exp(γxμ)
在这里插入图片描述

3.9.5 Dirac分布与经验分布(empirical distribution)

  • 狄拉克-德尔塔函数(Dirac delta function)
    除了0以外的所有点的值为0,位于0时值为正无穷,所以当x趋近于1时,积分为1

δ ( x ) = { ∞ , x = 0 0 , x ≠ 0 \delta(x)= \begin{cases} \infty, & x =0 \\ 0, & x\neq 0 \end{cases} δ(x)={,0,x=0x=0
∫ − ∞ ∞ δ ( x ) d x = 1 \int_{- \infty}^{\infty} \delta(x)dx = 1 δ(x)dx=1

  • 狄拉克分布
    概率分布集中于一点,通过左右平移 μ \mu μ个单位的Dirac-delta函数获得。
    属于广义函数(generalized function),其主要参考积分性质
    p ( x ) = δ ( x − μ ) p(x) = \delta(x-\mu) p(x)=δ(xμ)
  • 经验分布
    通过对连续型函数采样获得 m m m个点, x 1 x^1 x1 x m x^m xm后,以概率密度 1 m \frac {1} {m} m1分配到每一个点上。
    对其分布求积分,获得分布函数,根据Glivenko-Cantelli定理,此时分布函数能够逼近原函数。
    可以看做是在连续型上的多次试验得到离散型上二项式分布的概率
    p ^ ( x ) = 1 m ∑ i = 1 m δ ( x − x ( i ) ) \hat{p}(x) =\frac {1}{m}\sum_{i=1}^{m}\delta(x -x^{(i)}) p^(x)=m1i=1mδ(xx(i))
    如下图,可见分布函数(蓝色),即积分值,随着以概率密度 1 m \frac {1} {m} m1分配到每一个点上的值(黑色)增长,最后逼近原函数(灰色)。
    在这里插入图片描述

3.9.6 分布的混合

  • 混合分布(mixture distribution)
    由组件(component)分布构成
    组合多种概率分布
    潜变量(latent variable),指不能直接观测到的随机变量
    如下,其中 P ( c ) P(c) P(c)即对各组件的多项式分布,其中 c c c即为潜变量,联合各个组件分布,影响总体分布结果。
    P ( x ) = ∑ i P ( c = i ) P ( x ∣ c = i ) P(x) = \sum_{i} P(c =i)P(\mathbf x | c =i) P(x)=iP(c=i)P(xc=i)

  • 高斯混合模型(Gaussian Mixture Model)
    组件分布为不同的高斯分布,分别具有均值 μ ( i ) \mu^{(i)} μ(i)与协方差矩阵 Σ ( i ) \Sigma^{(i)} Σ(i)
    可以共享参数,并且可以采用各项同性协方差矩阵。

  • 万能近似器(universal approximator)
    高斯混合模型给出了每个组件 i i i的先验概率(prior probability) P ( c = i ) P(c=i) P(c=i)。对于任何平滑的概率密度,能够用足够多组件的高斯混合模型逼近。多维中的傅里叶?

吐槽

5.4日写完了上篇,总体上是概率论课上学过的一些内容,这也是我第一次写CSDN博客,浪费了两年半的时间没有记录自己的学习历程,感觉有些遗憾,如果有错误的话欢迎指正。
2018年开始接触深度学习,感觉正在调包侠的路上狂奔,距离成为社畜还有一年半,语言,算法,刷题,要补的不少,希望基础能打牢,面试时候不要那么尴尬…

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值