lyb深度学习学习笔记第二章:概率统计和信息论

二. 概率统计和信息论

相关概念:

随机变量

  1. 离散型随机变量

    概率质量函数PMF,边缘概率密度MPD

  2. 连续性随机变量

    概率密度函数PDF,边缘概率密度MPD,概率分布函数CDF

条件概率,连式法则

相互独立,条件独立

期望、方差、协方差、相关系数

全概公式、贝叶斯公式

零测集、几乎处处、

  1. 常用概率分布

    Bernoulli分布、Mutinoulli分布

    正态分布: N ( x ; μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − 1 2 σ 2 ( x − μ ) 2 ) \mathcal{N}\left(x ; \mu, \sigma^{2}\right)=\sqrt{\frac{1}{2 \pi \sigma^{2}}} \exp \left(-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right) N(x;μ,σ2)=2πσ21 exp(2σ21(xμ)2)、精度参数 N ( x ; μ , β − 1 ) = β 2 π exp ⁡ ( − 1 2 β ( x − μ ) 2 ) \mathcal{N}\left(x ; \mu, \beta^{-1}\right)=\sqrt{\frac{\beta}{2 \pi}} \exp \left(-\frac{1}{2} \beta(x-\mu)^{2}\right) N(x;μ,β1)=2πβ exp(21β(xμ)2)

    中心极限定理、多维正态分布

    指数分布: p ( x ; λ ) = λ 1 x ⩾ 0 exp ⁡ ( − λ x ) p(x ; \lambda)=\lambda \mathbf{1}_{x \geqslant 0} \exp (-\lambda x) p(x;λ)=λ1x0exp(λx)、Laplace分布:  Laplace  ( x ; μ , γ ) = 1 2 γ exp ⁡ ( − ∣ x − μ ∣ γ ) \text { Laplace }(x ; \mu, \gamma)=\frac{1}{2 \gamma} \exp \left(-\frac{|x-\mu|}{\gamma}\right)  Laplace (x;μ,γ)=2γ1exp(γxμ)

    Dirac分布: p ( x ) = δ ( x − μ ) p(x)=\delta(x-\mu) p(x)=δ(xμ) 该函数除0点外所有值为0但积分为1

  2. 混合分布

    高斯混合分布 P ( x , c ) = P ( x ∣ c ) P ( c ) \mathrm{P}(\mathrm{x}, \mathrm{c})=\mathrm{P}(\mathrm{x} | \mathrm{c}) \mathrm{P}(\mathrm{c}) P(x,c)=P(xc)P(c), $\mathrm{P}(\mathrm{x} | \mathrm{c}) $为高斯分布,任何平滑的概率密度都可以用足够多组件的高斯混合模型以任意精度逼近

  3. 常用函数

    5.1 logistic sigmoid

    ​ 生成Bernoulli分布中的 ϕ \phi ϕ, σ ( x ) = 1 1 + exp ⁡ ( − x ) \sigma(x)=\frac{1}{1+\exp (-x)} σ(x)=1+exp(x)1,x绝对值大的时候会出现梯度消失

    5.2 softplus

    ​ 生成正态分布的 β , σ \beta,\sigma β,σ, ζ ( x ) = log ⁡ ( 1 + exp ⁡ ( x ) ) \zeta(x)=\log (1+\exp (x)) ζ(x)=log(1+exp(x))

    5.3 相关性质

    1 − σ ( x ) = σ ( − x ) log ⁡ σ ( x ) = − ζ ( − x ) d d x ζ ( x ) = σ ( x ) ζ ( x ) − ζ ( − x ) = x \begin{aligned} &1-\sigma(x)=\sigma(-x)\\ &\log \sigma(x)=-\zeta(-x)\\ &\frac{d}{d x} \zeta(x)=\sigma(x)\\ &\zeta(x)-\zeta(-x)=x \end{aligned} 1σ(x)=σ(x)logσ(x)=ζ(x)dxdζ(x)=σ(x)ζ(x)ζ(x)=x

  4. 概率转化

    p x ( x ) = p y ( g ( x ) ) ∣ det ⁡ ( ∂ g ( x ) ∂ x ) ∣ p_{x}(\boldsymbol{x})=p_{y}(g(\boldsymbol{x}))\left|\operatorname{det}\left(\frac{\partial g(\boldsymbol{x})}{\partial \boldsymbol{x}}\right)\right| px(x)=py(g(x))det(xg(x))

    为Jacobina矩阵的行列式的绝对值

  5. 信息论

    1. 自信息

      I ( x ) = − log ⁡ P ( x ) I(x)=-\log P(x) I(x)=logP(x) 1单位nats是指观测到一个发生概率为1/e的事件发生时获得的信息量

    2. 香农熵entropy

      H ( x ) = E x ∼ P [ I ( x ) ] = − E x ∼ P [ log ⁡ P ( x ) ] H(\mathrm{x})=\mathbb{E}_{\mathrm{x} \sim P}[I(x)]=-\mathbb{E}_{\mathrm{x} \sim P}[\log P(x)] H(x)=ExP[I(x)]=ExP[logP(x)]

      KL离散度衡量一个变量的两种独立分布的差异: D K L ( P ∥ Q ) = E x ∼ P [ log ⁡ P ( x ) Q ( x ) ] = E x ∼ P [ log ⁡ P ( x ) − log ⁡ Q ( x ) ] D_{\mathrm{KL}}(P \| Q)=\mathbb{E}_{\mathbf{x} \sim P}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb{E}_{x \sim P}[\log P(x)-\log Q(x)] DKL(PQ)=ExP[logQ(x)P(x)]=ExP[logP(x)logQ(x)]

    3. 交叉熵cross entropy

      H ( P , Q ) = − E x ∼ P log ⁡ Q ( x ) = H ( P ) + D K L ( P ∥ Q ) H(P, Q)=-\mathbb{E}_{x \sim P} \log Q(x)=H(P) + D_{\mathrm{KL}}(P \| Q) H(P,Q)=ExPlogQ(x)=H(P)+DKL(PQ)

      针对Q最小化交叉熵等价于最小化KL散度

  6. 结构化概率模型

    有向图描述变量关系: p ( x ) = ∏ i p ( x i ∣ P a G ( x i ) ) p(\mathbf{x})=\prod_{i} p\left(\mathbf{x}_{i} | P a_{\mathcal{G}}\left(\mathbf{x}_{i}\right)\right) p(x)=ip(xiPaG(xi))
    在这里插入图片描述
    无向图描述变量关系: p ( x ) = 1 Z ∏ i ϕ ( i ) ( C ( i ) ) p(\mathbf{x})=\frac{1}{Z} \prod_{i} \phi^{(i)}\left(\mathcal{C}^{(i)}\right) p(x)=Z1iϕ(i)(C(i))
    在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值