深度学习第三章-概率与信息论笔记_信息论推理与学习算法中文版-CSDN博客

本文链接：https://blog.csdn.net/Eclipsesy/article/details/76844111

3.1 为什么要使用概率？

3.2 随机变量

3.3 概率分布

3.3.1 离散型变量和概率质量函数

离散型变量的概率分布可以用概率质量函数（probabilit mass function， PMF）描述。

3.3.2 连续型变量和概率密度函数

连续型随机变量的分布可以用概率密度函数（probability denstity function， PDF）表示。概率密度函数 $p(x)$ 并没有直接对特定的状态给出概率，而是给出落在面积为 $\delta x$ 的无限小的区域内的概率为 $p(x)\delta x$ 。

3.4边缘概率

3.5条件概率

3.6条件概率的链式法则

3.7独立性和条件独立性

3.8期望、方差和协方差

期望， $E x \sim P [f (x)] = \sum x P (x) f (x)$ $\mathbb E_{x\sim P}[f(x)]=\sum_xP(x)f(x)$ 对于连续型： $E x \sim P [f (x)] = \int p (x) f (x) d x .$ $\mathbb E_{x\sim P}[f(x)]=\int p(x)f(x)dx.$
方差（variance）衡量的是当我们对 $x$ 根据它概率分布进行采样时，随机变量 $x$ 的函数值会呈现多大的差异： $V a r ((f x)) = E [(f (x) - E [f (x)]) 2]$ $Var((fx))=\mathbb E[(f(x)-\mathbb E[f(x)])^2]$ .方差的平方根被称为标准差。
协方差（covariance）给出两个变量线性相关性的强度：

Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]
协方差的绝对值大，意味着变量值变化很大并且它们同时距离各自的均值很远。
- 若协方差为正，两个变量都倾向于同时取得相对较大的值
- 若协方差为负，其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得较小的值，反之亦然。
协方差矩阵（covariance matrix）是一个 $n\times n$ 的矩阵。协方差矩阵的对角元是方差：

Cov(xi,xi)=Var(xi)

3.9 常用概率分布

3.9.1 Bernoulli分布

Bernoulli分布是单个二值随机变量的分布。由单个参数 $\phi$ 控制，表示随机变量等于1的概率： $P (x = 1) = ϕ$ $P(\mathrm x=1)=\phi$ $P (x = 0) = 1 - ϕ$ $P(\mathrm x=0)=1-\phi$ $P (x = x) = ϕ x (1 - ϕ) 1 - x$ $P(\mathrm x=x)=\phi^x(1-\phi)^{1-x}$ $E x [x] = ϕ$ $\mathbb E_\mathrm x[\mathrm x]= \phi$ $V a r x (x) = ϕ (1 - ϕ)$ $Var_x(x)=\phi(1-\phi)$

3.9.2 Multinoulli分布

Multinoulli分布或者范畴分布（categorycal distribution）是指在具有 $k$ 个不同状态的单个离散型随机变量上的分布。

3.9.3 高斯分布

高斯分布（Gaussian distribution）也称正态分布（normal distribution）： $N (x; μ, σ 2) = 1 2 π σ 2 - - - - - \sqrt e x p (- 1 2 σ 2 (x - μ) 2)$ $\mathcal N(x;\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}exp \left(-\frac{1}{2\sigma^2}(x-\mu)^2\right)$ 分布的均值 $\mathbb E[x] = \mu$ ，分布的标准差用 $\sigma表示$ ，方差 $\sigma^2$ 。
当我们缺乏关于某个实数上分布的先验知识而不知道采用哪种分布，选择正态分布的原因：
- 很多分布的真实情况比较接近正态分布。
- 在具有相同方差的所有概率分布中，正态分布在实数上具有最大的不确定性。

3.9.4指数分布和Laplace分布

泊松分布：一个时间段内时间平均发生的次数（离散变量）
指数分布：两件事发生的平均时间间隔。 $p (x; λ) = λ 1 x \geq 0 e x p (- λ x)$ $p(x;\lambda)=\lambda\mathbf 1_{x\geq0 }exp(-\lambda x)$ 其中 $\mathbf 1_{x\geq0 }$ 是指示函数（indicator function），使得 $x$ 取负值的概率为零。泊松分布和指数分布
Laplace分布： $L a p l a c e (x; μ, γ) = 1 2 γ e x p (- | x - μ | γ)$ $Laplace(x;\mu,\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)$
其中 $\mu$ 是位置参数， $\gamma$ 尺度参数。
正态分布用平均值 $\mu$ 的差的平方 $(x-\mu)^2$ 。
Laplace用相对平均值的差的绝对值表示，尾部比正态分布更平坦。（声音辨识、JPEG压缩等） $E (x) = μ$ $\mathbb E(\mathrm x)=\mu$ $V a r (x) = 2 σ 2$ $Var(\mathrm x)=2\sigma^2$ 拉普拉斯分布-百度百科

3.9.5 Dira分布和经验分布

所有质量都集中在一点上。Dirac Delta函数： $p (x) = δ (x - μ)$ $p(x)=\delta(x-\mu)$ ，信号与系统中很熟悉了。除0点外所有点的值都是0，但整体积分为1.
经验分布（empirical distribution）： $p (x) = 1 m \sum i = 1 m δ (x - x (i))$ $p(x)=\frac{1}{m}\sum_{i=1}^{m}\delta(x-x^{(i)})$ 将概率密度为 $\frac{1}{m}的m个点中赋给每一个，给定采样$

3.9.6 混合模型

常见的高斯混合模型（Gaussian Mixture Model），高斯混合模型是概率密度的万能近似器（universal approximator）。

3.10 常用函数的有用性质

logistic sigmoid函数： $σ (x) = 1 1 + e x p ( - x )$ $\sigma(x)=\frac{1}{1+exp(-x)}$ ，通常用来生成Bernoulli分布中的参数，（即得出分类的概率）。logistic 回归
softplus函数（softplus function）： $ζ (x) = l o g (1 + e x p (x))$ $\zeta(x)=log(1+exp(x))$ ，可以用来产生正态分布的 $\beta和\sigma$ 参数。来源于 $x^+=max(0,x)$ softplus Relu。
两者之间： $σ (x) = e x p ( x ) e x p ( x ) + e x p ( 0 )$ $\sigma(x)=\frac{exp(x)}{exp(x)+exp(0)}$ 等公式见书。

3.11贝叶斯规则

常用：

P (x | y) = P ( x ) P ( y | x ) P ( y )

$P(x|y)=\frac{P(x)P(y|x)}{P(y)}$ ，具体百度贝叶斯，朴素贝叶斯等。
###3.12连续型变量的技术细节
假设两个随机变量

x $x$ 和

y $y$ 满足

y=g(x) $y=g(x)$ ，是否

py(y)=px(g−1(y)) $p_y(y)=p_x(g^{-1}(y))$ 成立？
不成立
举例子：假设

y=x2，x∈(0,1) $y = \frac x 2， x\in(0,1)$ 如果令

py(y)=px(2y) $p_y(y)=p_x(2y)$ ，此时

py $p_y$ 除了区间(0,

12 $\frac 1 2$ )之外都为0，并在这个区间等于1（与

px $p_x$ 一致）.所以整个区间积分为

12 $\frac 1 2$ ，与概率密度定义矛盾。这是因为没有考虑引入函数

g $g$ 引起的空间变形。（点的密度不同）。为解决这一矛盾：对于实值向量

x $x$ 和

y $y$ ：引入Jacobian矩阵进行微分扩展运算：

p x (x) = p y (g (x)) ∣ ∣ ∣ ∣ d e t (\partial g ( x ) \partial x) ∣ ∣ ∣ ∣

$p_x(x)=p_y(g(x)) \left|det\left(\frac{\partial g(x)}{\partial x}\right)\right|$

3.13信息论

本科和研一学过太多了，略过0.0

KL散度（Kullback-Leibler（KL）divergence）衡量两个单独的概率分布 P(x) Q(x) 的差异：
DKL(P||Q)=Ex∼P[logP(x)Q(x)]=Ex∼P[logP(x)−logQ(x)]
在离散型变量的情况下，KL散度衡量的是当一种能被设计成概率分布Q产生的消息的最小的编码，发送包含由概率P产生的符号的消息时，所需要的额外信息量。
- KL散度非负。KL散度为0，且 $P(x)和Q(x)为离散型变量是相同的分布。$