二. 概率统计和信息论
相关概念:
随机变量
-
离散型随机变量
概率质量函数PMF,边缘概率密度MPD
-
连续性随机变量
概率密度函数PDF,边缘概率密度MPD,概率分布函数CDF
条件概率,连式法则
相互独立,条件独立
期望、方差、协方差、相关系数
全概公式、贝叶斯公式
零测集、几乎处处、
-
常用概率分布
Bernoulli分布、Mutinoulli分布
正态分布: N ( x ; μ , σ 2 ) = 1 2 π σ 2 exp ( − 1 2 σ 2 ( x − μ ) 2 ) \mathcal{N}\left(x ; \mu, \sigma^{2}\right)=\sqrt{\frac{1}{2 \pi \sigma^{2}}} \exp \left(-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right) N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)、精度参数 N ( x ; μ , β − 1 ) = β 2 π exp ( − 1 2 β ( x − μ ) 2 ) \mathcal{N}\left(x ; \mu, \beta^{-1}\right)=\sqrt{\frac{\beta}{2 \pi}} \exp \left(-\frac{1}{2} \beta(x-\mu)^{2}\right) N(x;μ,β−1)=2πβexp(−21β(x−μ)2)
中心极限定理、多维正态分布
指数分布: p ( x ; λ ) = λ 1 x ⩾ 0 exp ( − λ x ) p(x ; \lambda)=\lambda \mathbf{1}_{x \geqslant 0} \exp (-\lambda x) p(x;λ)=λ1x⩾0exp(−λx)、Laplace分布: Laplace ( x ; μ , γ ) = 1 2 γ exp ( − ∣ x − μ ∣ γ ) \text { Laplace }(x ; \mu, \gamma)=\frac{1}{2 \gamma} \exp \left(-\frac{|x-\mu|}{\gamma}\right) Laplace (x;μ,γ)=2γ1exp(−γ∣x−μ∣)
Dirac分布: p ( x ) = δ ( x − μ ) p(x)=\delta(x-\mu) p(x)=δ(x−μ) 该函数除0点外所有值为0但积分为1
-
混合分布
高斯混合分布 P ( x , c ) = P ( x ∣ c ) P ( c ) \mathrm{P}(\mathrm{x}, \mathrm{c})=\mathrm{P}(\mathrm{x} | \mathrm{c}) \mathrm{P}(\mathrm{c}) P(x,c)=P(x∣c)P(c), $\mathrm{P}(\mathrm{x} | \mathrm{c}) $为高斯分布,任何平滑的概率密度都可以用足够多组件的高斯混合模型以任意精度逼近
-
常用函数
5.1 logistic sigmoid
生成Bernoulli分布中的 ϕ \phi ϕ, σ ( x ) = 1 1 + exp ( − x ) \sigma(x)=\frac{1}{1+\exp (-x)} σ(x)=1+exp(−x)1,x绝对值大的时候会出现梯度消失
5.2 softplus
生成正态分布的 β , σ \beta,\sigma β,σ, ζ ( x ) = log ( 1 + exp ( x ) ) \zeta(x)=\log (1+\exp (x)) ζ(x)=log(1+exp(x))
5.3 相关性质
1 − σ ( x ) = σ ( − x ) log σ ( x ) = − ζ ( − x ) d d x ζ ( x ) = σ ( x ) ζ ( x ) − ζ ( − x ) = x \begin{aligned} &1-\sigma(x)=\sigma(-x)\\ &\log \sigma(x)=-\zeta(-x)\\ &\frac{d}{d x} \zeta(x)=\sigma(x)\\ &\zeta(x)-\zeta(-x)=x \end{aligned} 1−σ(x)=σ(−x)logσ(x)=−ζ(−x)dxdζ(x)=σ(x)ζ(x)−ζ(−x)=x
-
概率转化
p x ( x ) = p y ( g ( x ) ) ∣ det ( ∂ g ( x ) ∂ x ) ∣ p_{x}(\boldsymbol{x})=p_{y}(g(\boldsymbol{x}))\left|\operatorname{det}\left(\frac{\partial g(\boldsymbol{x})}{\partial \boldsymbol{x}}\right)\right| px(x)=py(g(x))∣∣∣det(∂x∂g(x))∣∣∣
为Jacobina矩阵的行列式的绝对值
-
信息论
-
自信息
I ( x ) = − log P ( x ) I(x)=-\log P(x) I(x)=−logP(x) 1单位nats是指观测到一个发生概率为1/e的事件发生时获得的信息量
-
香农熵entropy
H ( x ) = E x ∼ P [ I ( x ) ] = − E x ∼ P [ log P ( x ) ] H(\mathrm{x})=\mathbb{E}_{\mathrm{x} \sim P}[I(x)]=-\mathbb{E}_{\mathrm{x} \sim P}[\log P(x)] H(x)=Ex∼P[I(x)]=−Ex∼P[logP(x)]
KL离散度衡量一个变量的两种独立分布的差异: D K L ( P ∥ Q ) = E x ∼ P [ log P ( x ) Q ( x ) ] = E x ∼ P [ log P ( x ) − log Q ( x ) ] D_{\mathrm{KL}}(P \| Q)=\mathbb{E}_{\mathbf{x} \sim P}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb{E}_{x \sim P}[\log P(x)-\log Q(x)] DKL(P∥Q)=Ex∼P[logQ(x)P(x)]=Ex∼P[logP(x)−logQ(x)]
-
交叉熵cross entropy
H ( P , Q ) = − E x ∼ P log Q ( x ) = H ( P ) + D K L ( P ∥ Q ) H(P, Q)=-\mathbb{E}_{x \sim P} \log Q(x)=H(P) + D_{\mathrm{KL}}(P \| Q) H(P,Q)=−Ex∼PlogQ(x)=H(P)+DKL(P∥Q)
针对Q最小化交叉熵等价于最小化KL散度
-
-
结构化概率模型
有向图描述变量关系: p ( x ) = ∏ i p ( x i ∣ P a G ( x i ) ) p(\mathbf{x})=\prod_{i} p\left(\mathbf{x}_{i} | P a_{\mathcal{G}}\left(\mathbf{x}_{i}\right)\right) p(x)=∏ip(xi∣PaG(xi))
无向图描述变量关系: p ( x ) = 1 Z ∏ i ϕ ( i ) ( C ( i ) ) p(\mathbf{x})=\frac{1}{Z} \prod_{i} \phi^{(i)}\left(\mathcal{C}^{(i)}\right) p(x)=Z1∏iϕ(i)(C(i))