《深度学习》花书学习--第三章--概率与信息论[上]

本文链接：https://blog.csdn.net/qq_42918142/article/details/105866169

第三章--概率与信息论【上】

3.3 概率分布
- 3.3.1 离散型变量和概率质量函数
- 3.3.2 连续性变量和概率密度函数
3.4 边缘概率
3.5 条件概率
3.6 条件模型的链式法则
3.7 独立性与条件独立性
3.8 期望，方差与协方差
3.9 常用概率分布
吐槽

PS：这部分大学概率论应该都学过，想想还是应该做下笔记复习一下，本章公式符号采用花书符号，可能和大学课本上符号有些许不同。

3.3 概率分布

3.3.1 离散型变量和概率质量函数

概率质量函数(probability mass function) PMF
形如：

$\qquad \qquad P(\mathbf x= x_{i})=0.5$
归一化(normalized)
做到：
$\qquad \qquad \sum_{x \in \mathbf x}P(x) =1$
联合概率分布(joint probability distribution)

$\qquad \qquad P(\mathbf x =x,\mathbf y = y)$
均匀分布(uniform distribution)
离散型随机变量 $x$ 存在 $k$ 个状态

$\qquad\qquad \qquad P(\mathbf x = x_{i}) = \frac {1}{k}$

3.3.2 连续性变量和概率密度函数

概率密度函数(probability desity function, $P D F$ )
– 定义域为 $\mathbf x$ 所有情况的集合
– $\forall x \in \mathbf x, p(x) \geq0$ 概率不可能小于0
– $\int p(x)dx =1$ 概率总体为1

其 $x$ 是连续的，通过对于区间 $[a, b]$ 内的 $P D F$ 函数求积分获得 $\in [a,b]$ 的概率：
$\qquad \int_{[a,b]}p(x)dx$

3.4 边缘概率

边缘概率分布(marginal probablity distribution)

在获知一个联合概率分布 $P (x, y)$ 时，希望获知其中子集 $x$ 或 $y$ 的概率分布。
对于其另一个子集求积分即可，以求 $y$ 的积分为例:

$\qquad \qquad p(x) = \int p(x,y)dy$

3.5 条件概率

条件概率(conditional probability)
在某个事件A发生时，B发生的概率
A： $\mathbf x = x\qquad$ B： $\mathbf y =y$
条件概率： $P(\mathbf y =y |\mathbf x = x) = \frac {P(\mathbf x =x,\mathbf y = y)}{P(\mathbf x =x)}$

3.6 条件模型的链式法则

链式法则(chain rule)或乘法法则(product rule)，~~套娃法则~~
任何多维随机变量的联合概率分布，可以分解成只有一个变量的条件概率相乘的模式。
$P (a, b, c) = P (a ∣ b, c) P (b, c)$
$P (b, c) = P (b ∣ c) (c)$
$P (a, b, c) = P (a ∣ b, c) P (b ∣ c) P (c)$

3.7 独立性与条件独立性

相互独立(independent)
联合概率分布可以直接改写为子集概率分布相乘的形式
$p(\mathbf x = x,\mathbf y =y) = p(\mathbf x =x)p(\mathbf y =y)$
条件独立(conditional independent)
形式上： $x$ 与 $y$ 的分布对于 $z$ 的每个值都能写成乘积的形式
$p(\mathbf x = x, \mathbf y =y \ | \ \mathbf z =z) = p(\mathbf x =x \ | \ \mathbf z =z)p(\mathbf y =y \ | \ \mathbf z =z)$

意义上：在事件 $z$ 发生时，事件 $x$ 与 $y$ 相互无关
如下图：小明与小红不会互相通知，相互无关

3.8 期望，方差与协方差

期望（expectation）
具有线性
离散型：
$\sum_{x}P(x)f(x)$ , 其中 $f (x)$ 是一组离散的值，理解为 $x_{1},x_{2},x_{3}$ 等的具体值，就是 $\color{red} X$
连续型：
$\int p(x)f(x)dx$ ，其中 $f (x)$ 为特定函数

※ 区分均值(mean)与期望(expectation)
均值：已知样本数据，未知概率分布
期望：已知概率分布，未知实验数据
方差（variance）标准差（standard devariance）与协方差（convariance）
方差：对于 $x$ 的概率分布采样时，其函数值的差异大小

$\qquad \qquad Var(f(x)) =\mathbb E[(f(x)-\mathbb E[f(x)]^{2})]$

协方差：衡量两个变量线性相关的程度

$\qquad Conv(f(x),g(y)) = \mathbb E[(f(x)-\mathbb E[f(x)])(g(x) - \mathbb E[g(x)])]$

协方差绝对值相差大 -》变量值大
协方差为正 -> 正相关
协方差为负 -> 负相关

※ 区分相关系数（correlation）独立性与协方差
相关系数： $\rho = \frac {Conv(X,Y)}{\sigma_{X}\sigma_{Y}}$

相关系数与协方差：相关系数可以看做是一种标准化，归一化的协方差，同样用于衡量变量之间线性相关的程度。
相关系数的特点：能够消除了两个变量变化幅度的影响，而只是单纯反应两个变量每单位变化时的相似程度。就是标准化的作用。。。
独立性：独立性要求不仅没有线性的相关，并且需要排除非线性的相关。相关系数只是衡量线性的相关。所以，独立–>相关系数为0，相关系数为0 -×->独立
详见：如何通俗易懂地解释「协方差」与「相关系数」的概念？ - GRAYLAMB的回答 - 知乎

3.9 常用概率分布

3.9.1 伯努利分布(Bernoulli distribution)

就是N=1时的二项式分布, $\phi$ 为变量等于1的概率

$\qquad \qquad P(\mathbf x = x)=\phi^{x}(1-\phi)^{1-x}\quad$ 其中 $\in \lbrace0,1\rbrace$
$\qquad \qquad \mathbb E_{\mathbf x}[\mathbf x] = \phi$
$\qquad \qquad Var_{x}(\mathbf x) = \phi(1-\phi)$

3.9.2 二/多项式分布(multiboulli distribution)

就是N重伯努利分布，取 $\mathbf x$ 的取值可能为0,1,2,…,n， $p$ 为单次实验发生的概率
$\qquad \qquad P(\mathbf x = x) = \binom{n}{k}p^{k}{(1-p)}^{n-k},k=0,1,....,n$

3.9.3 高斯分布(Gaussian distribution)

就是正态分布(normal distribution)
由均值： $\mu \in \mathbb R$
标准差： $\sigma \in (0,\infty)$ 决定

$\qquad \qquad N(x;\mu,\sigma^2) = \sqrt{\frac {1}{2\pi\sigma^2}}\mathbf {exp}(- \frac {1}{2\sigma^2}(x-\mu)^2)$

将方差的倒数 $\frac {1}{\sigma^2}$ 设置为 $\beta$ (精度：precision)，可获得更高效的参数化分布公式。~~不知道哪里更高效了~~ 公式：略

以下为标准正态分布(standard normal distribution)图像(均值为0，方差为1)，其中最大值在 $\mu$ 时取得， $\mu \pm\sigma$ 为拐点
在这里插入图片描述

为什么采用高斯分布？

中心极限定理(central limit theorem)表明，很多独立随机变量近似服从高斯分布。
高斯分布在方差相同时，在实数上具有最大的不确定性。即对模型加入先验知识最少的分布。

多维正态分布(multivariate normal distribution)

$\qquad \qquad N(x;\mu,\Sigma) = \sqrt{\frac {1}{(2\pi)^{n}det(\Sigma)}}\mathbf {exp}(- \frac {1}{2}(x-\mu)^\top\Sigma^{-1}(x-\mu))$

其中 $\mu$ 为均值向量， $\Sigma$ 为正定，对称的协方差矩阵
可以对 $\Sigma$ 求逆获得精度矩阵(precision matrix) $\beta$ 替代，公式略

各项同性高斯分布(isotropic Gaussian distribution)
利用(标量×单位阵)取代(协方差矩阵)

3.9.4 指数分布(exponential distribution)与拉普拉斯分布(Laplace distribution)

指数分布
主要用于描述事件的时间间隔的概率–>来电间隔，网站访问间隔等
边界点(sharp point)为x =0处，概率密度函数如下。

$\qquad \qquad p(x;\lambda) = \lambda\mathbf {exp}(-\lambda x)\quad x\geq0$
$\qquad \qquad p(x;\lambda) = 0\qquad \qquad \quad x<0$

在这里插入图片描述

拉普拉斯分布
拉普拉斯分布可以看做是将两个指数分布拼接在一起的情况
相较于正态分布，拉普拉斯分布的峰更加明显，两侧则相对平滑。
公式如下，其中 $\mu$ 为峰的位置参数， $\gamma$ 为尺度参数

$\qquad \qquad \qquad Laplace(x;\mu,\gamma)=\frac {1}{2\gamma}\mathbf {exp(-\frac {|x-\mu|}{\gamma})}$
在这里插入图片描述

3.9.5 Dirac分布与经验分布(empirical distribution)

狄拉克-德尔塔函数(Dirac delta function)
除了0以外的所有点的值为0，位于0时值为正无穷，所以当x趋近于1时，积分为1

$\delta(x)= \begin{cases} \infty, & x =0 \\ 0, & x\neq 0 \end{cases}$
$\int_{- \infty}^{\infty} \delta(x)dx = 1$

狄拉克分布
概率分布集中于一点，通过左右平移 $\mu$ 个单位的Dirac-delta函数获得。
属于广义函数(generalized function)，其主要参考积分性质
$\delta(x-\mu)$
经验分布
通过对连续型函数采样获得 $m$ 个点， $x^1$ … $x^m$ 后，以概率密度 $\frac {1} {m}$ 分配到每一个点上。
对其分布求积分，获得分布函数，根据Glivenko-Cantelli定理，此时分布函数能够逼近原函数。
可以看做是在连续型上的多次试验得到离散型上二项式分布的概率
$\hat{p}(x) =\frac {1}{m}\sum_{i=1}^{m}\delta(x -x^{(i)})$
如下图，可见分布函数（蓝色），即积分值，随着以概率密度 $\frac {1} {m}$ 分配到每一个点上的值（黑色）增长，最后逼近原函数（灰色）。

3.9.6 分布的混合

混合分布(mixture distribution)
由组件(component)分布构成
组合多种概率分布
潜变量(latent variable)，指不能直接观测到的随机变量
如下，其中 $P (c)$ 即对各组件的多项式分布，其中 $c$ 即为潜变量，联合各个组件分布，影响总体分布结果。
$\sum_{i} P(c =i)P(\mathbf x | c =i)$
高斯混合模型(Gaussian Mixture Model)
组件分布为不同的高斯分布，分别具有均值 $\mu^{(i)}$ 与协方差矩阵 $\Sigma^{(i)}$ 。
可以共享参数，并且可以采用各项同性协方差矩阵。
万能近似器(universal approximator)
高斯混合模型给出了每个组件 $i$ 的先验概率(prior probability) $P (c = i)$ 。对于任何平滑的概率密度，能够用足够多组件的高斯混合模型逼近。多维中的傅里叶?

吐槽

5.4日写完了上篇，总体上是概率论课上学过的一些内容，这也是我第一次写CSDN博客，浪费了两年半的时间没有记录自己的学习历程，感觉有些遗憾，如果有错误的话欢迎指正。
2018年开始接触深度学习，感觉正在调包侠的路上狂奔，距离成为社畜还有一年半，语言，算法，刷题，要补的不少，希望基础能打牢，面试时候不要那么尴尬…