《深度学习》第3章概率与信息论

最新推荐文章于 2024-04-22 16:35:39 发布

TifaBest

最新推荐文章于 2024-04-22 16:35:39 发布

阅读量465

点赞数

分类专栏：读后笔记文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/Tifa_Best/article/details/83383457

版权

读后笔记专栏收录该内容

24 篇文章 0 订阅

订阅专栏

《深度学习》第3章概率与信息论

概率不仅提供量化不确定性的方法，也提供了用于导出新的不确定性声明的公理

为什么要使用概率

不确定性有三种来源：

被建模系统内在的随机性
不完全观测
不完全建模

频率派概率：概率直接与事件发生的频率相联系
贝叶斯概率：概率涉及到确定性水平

随机变量

概率分布

离散型变量和概率质量函数

$\sum_iP(\mathrm x = x_i) = \sum_i\frac1k = 1$

连续型变量和概率模型函数

$\int p(x) dx = 1$

边缘概率

$\forall x \in \mathrm x,P(\mathrm x = x) = \sum_yP(\mathrm x = x, \mathrm y = y)$
$\int p(x, y)dy$

条件概率

$P(\mathrm y = y | \mathrm x = x) = \frac {P(\mathrm y = y, \mathrm x = x)} {P(\mathrm x = x)}$
不要把条件概率和干预查询相混淆

条件概率的链式法则

$P(\mathrm x^{(1)},\ldots,\mathrm x^{(n)}) = P(\mathrm x^{(1)})\prod_{i=2}^nP\left(\mathrm x^{(1)},\ldots,\mathrm x^{(i-1)}\right)$

独立性和条件独立性

$\forall x \in \mathrm x, y \in \mathrm y, p(\mathrm x = x, \mathrm y = y) = p(\mathrm x = x)p(\mathrm y = y)$
$\forall x \in \mathrm x, y \in \mathrm y, z \in \mathrm z, p(\mathrm x = x, \mathrm y = y | \mathrm z = z) = p(\mathrm x = x| \mathrm z = z)p(\mathrm y = y | \mathrm z = z)$

期望、方差和协方差

协方差给出了两个变量线性相关性的强度以及变量的尺度
$\mathrm{Cov}(f(x), g(y)) = \mathbb E[(f(x) - \mathbb E[f(x)])(g(y) - \mathbb E[g(y)])]$

相关系数将变量贡献归一化，只衡量变量的相关性。

独立性比零协方差要求更严，因为独立性还排除了非线性的关系

常见概率分布

Bernoulli分布

Multinoulli分布

高斯分布

$\mathcal N(x;\mu, \sigma^2) = \sqrt{\frac {1}{2\pi\sigma^2}} \mathrm{exp} \left( -\frac{1}{2\sigma^2}(x - \mu)^2 \right)$

正态分布是比较好的默认选择，原因有二：

很多分布的真实情况接近正态分布
在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最大的不确定性

指数分布和Laplace分布

$p(x;\lambda) = \lambda 1_{x \geq 0} \mathrm {exp}(-\lambda x)$
$\mathrm{Laplace}(x;\mu,\gamma) = \frac{1}{2\gamma} \mathrm{exp}\left( -\frac{|x - \mu|}{\gamma} \right)$

Dirac分布和经验分布

$\delta(x - \mu)$
$\hat p(x) = \frac 1m \sum_{i=1}^{m}\delta(x-x^{(i)})$
可以认为从训练集上得到的经验分布指明了采样来源的分布，其是训练数据的似然最大的那个概率密度函数

分布的混合

混合模型是组合简单概率分布来生成更丰富的分布的一种简单策略。

一种非常强大且常见的混合模型是高斯混合模型，其是概率密度的万能近似器

常用函数的有用性质

$\sigma(x) = \frac {1}{1 + \mathrm{exp}(-x)}$
$\zeta(x) = \mathrm{log}(1 + \mathrm{exp}(x))$
$x^+ = \mathrm{max}(0, x)$

下面一些性质有用：
$\sigma(x) = \frac{\mathrm{exp}(x)}{\mathrm{exp}(x) + \mathrm{exp}(0)}$
$\frac{d}{dx}\sigma(x) = \sigma(x)(1-\sigma(x))$
$1-\sigma(x) = \sigma(-x)$
$\mathrm{log}\sigma(x) = -\zeta(-x)$
$\frac{d}{dx}\zeta(x) = \sigma(x)$
$\forall x \in (0,1), \sigma^{-1}(x) = \mathrm{log}\left(\frac{x}{1-x} \right)$
$\forall x > 0, \zeta^{-1}(x) = \mathrm{log}(\mathrm{exp}(x)-1)$
$\zeta(x) = \int_{-\infty}^x\sigma(y)dy$
$\zeta(x) - \zeta(-x) = x$

贝叶斯规则

$P(\mathrm x | \mathrm y) = \frac{P(\mathrm x)P(\mathrm y |\mathrm x)}{P(\mathrm y)}$

连续变量型的技术细节

$p_y(g(x))dy| = |p_x(x)dx|$

信息论

对一个信号包含信息的多少进行量化

三个性质：

非常可能发生的事件信息量要比较少
较不可能发生的事件具有更高的信息量
独立事件应具有增量的信息

自信息：
$-\mathrm{log}P(x)$

一奈特是以 $1 / e$ 的概率观测到一个事件时获得的信息量

香农熵：
$H(\mathrm x) = \mathbb E_{\mathrm x \sim P}[I(x)] = -\mathbb E_{\mathrm x \sim P}[\mathrm{log}P(x)]$
一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量

KL散度衡量两个独立的概率分布的差异：
$D_{\mathrm{KL}}(P||Q) = \mathbb E_{\mathrm x \sim P} \left[ \mathrm{log} \frac{P(x)}{Q(x)} \right] = \mathbb E_{\mathrm x \sim P}[\mathrm{log}P(x)-\mathrm{log}Q(x)]$

在离散型变量的情况下,KL 散度衡量的是,当我们使用一种被设计成能够使得概率分布 $Q$ 产生的消息的长度最小的编码,发送包含由概率分布 $P$ 产生的符号的消息时,所需要的额外信息量。或者说是数据的原始分布 $P$ 和近似分布 $Q$ 之间的对数差值的期望。

交叉熵:
$D_{\mathrm{KL}}(P||Q) = -\mathbb E_{\mathrm x \sim P}\mathrm{log}Q(x)$

针对 $Q$ 最小化交叉熵等价于最小化KL散度,因为 $Q$ 并不参与被省略的那一项

结构化概率模型

有向模型：
$p(\mathrm x) = \prod_ip(\mathrm x_i|Pa_\mathcal G(\mathrm x_i))$
无向模型：
$p(\mathrm x) = \frac{1}{Z}\prod_i\phi^{(i)}(\mathcal C^{(i)})$
这些图模型表示的分解仅仅是描述概率分布的一种语言

TifaBest

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《深度学习》第3章概率与信息论

概率不仅提供量化不确定性的方法，也提供了用于导出新的不确定性声明的公理为什么要使用概率不确定性有三种来源：被建模系统内在的随机性不完全观测不完全建模频率派概率：概率直接与事件发生的频率相联系贝叶斯概率：概率涉及到确定性水平随机变量概率分布离散型变量和概率质量函数∑iP(x=xi)=∑i1k=1\sum_iP(\mathrm x = x_i) = \sum_i\frac1k...
复制链接

扫一扫