数理基础知识

平丘月初

已于 2024-08-09 17:58:18 修改

阅读量537

点赞数 18

分类专栏：算法工作笔记文章标签：概率论机器学习人工智能

于 2024-08-08 17:03:21 首次发布

本文链接：https://blog.csdn.net/u011994454/article/details/141031497

版权

算法工作笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

大数定律

期望方差

x为连续随机变量，其概率密度函数为 $f_x(x)$ ，x的期望值为:
$\int_{-\infty}^{\infty} xf_x(x)dx$
g为一个函数，g(x)的期望值为
$\int_{-\infty}^{\infty}g(x)f_x(x)dx$

经常E会有下标，代表了期望值是对应下标分布的随机变量上计算得出的。比如
$E_{x\sim f_x(x)}[h(x, y)] = \int_{-\infty}^{\infty}h(x, y)f_x(x)dx$

常见分布

伯努利分布

又名两点分布或者01分布，是一个离散型概率分布。记其成功概率为 $p$ ( $0\leq p\leq1$ )，则：
其概率质量函数为
$f_x(x)=p^x(1-p)^{1-x}=\left\{ \begin{aligned} p \quad \quad (x= 1) \\ 1-p \quad \quad (x= 0)\\ \end{aligned} \right.$
期望为 $p$ ，方差为 $p (1 - p)$ 。

泊松分布

Poisson分布，是一个离散概率分布，适合于描述单位时间内随机事件发生次数的概率分布。
概率质量函数为：
$\frac{e^{-\lambda}\lambda^k}{k!}$
期望为 $\lambda$ , 方差为 $\sqrt{\lambda}$ 。

高斯分布

一维高斯分布：
$f_x(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

多元高斯分布：
$f_x(x) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)]$
$\mu \in R^{n\times 1}$ , $\Sigma \in R^{n\times n}$ , $|\Sigma|$ 为求协方差矩阵的det。

服从一维高斯分布的随机变量KL散度

两个高斯分布 $p(x)=N(\mu_1, \sigma_1)$ 和 $q(x)=N(\mu_2, \sigma_2)$
$\begin{aligned} D_{KL}(p, q) &= \int p(x)log\frac{p(x)}{q(x)}dx \\ &= \int p(x)[logp(x) - logq(x)]dx \\ \end{aligned}$

$\begin{aligned} \int p(x)logp(x)dx &= \int p(x) log[\frac{1}{\sqrt{2\pi\sigma_1^2}}exp({-\frac{(x-\mu_1)^2}{2\sigma_1^2}})]dx \\ &= -\frac{1}{2}log(2\pi\sigma_1^2) + \int p(x)({-\frac{(x-\mu_1)^2}{2\sigma_1^2}})dx \\ &= -\frac{1}{2}log(2\pi\sigma_1^2) - \frac{\int p(x)x^2dx - \int p(x)2x\mu_1dx + \int p(x)\mu_1^2dx}{2\sigma_1^2} \\ &= -\frac{1}{2}log(2\pi\sigma_1^2) - \frac{\mu_1^2 + \sigma_1^2 - 2\mu_1^2 + \mu_1^2}{2\sigma_1^2} \\ &= -\frac{1}{2}[1 + log(2\pi\sigma_1^2)] \end{aligned}$

$\begin{aligned} \int p(x)logq(x)dx &= \int p(x) log[\frac{1}{\sqrt{2\pi\sigma_2^2}}exp({-\frac{(x-\mu_2)^2}{2\sigma_2^2}})]dx \\ &= -\frac{1}{2}log(2\pi\sigma_2^2) + \int p(x)({-\frac{(x-\mu_2)^2}{2\sigma_2^2}})dx \\ &= -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{\int p(x)x^2dx - \int p(x)2x\mu_2dx + \int p(x)\mu_2^2dx}{2\sigma_2^2} \\ &= -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{\mu_1^2 + \sigma_1^2 - 2\mu_1\mu_2 + \mu_2^2}{2\sigma_2^2} \\ &= -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{ \sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} \\ \end{aligned}$

带入可得：
$\begin{aligned} D_{KL}(p, q) &= \int p(x)[logp(x) - logq(x)]dx \\ &= -\frac{1}{2}[1 + log(2\pi\sigma_1^2)] + \frac{1}{2}log(2\pi\sigma_2^2) + \frac{ \sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} \\ &= log(\frac{\sigma_2}{\sigma_1}) + \frac{\sigma_1^2 + (\mu_1-\mu_2)^2}{2\sigma_2^2} - \frac{1}{2} \end{aligned}$

服从多元高斯分布的随机变量KL散度

与一元高斯分布类似，第一部分：
$\begin{aligned} \int p(x)logp(x)dx &= \int p(x) log[\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} exp[-\frac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]] dx\\ &= log\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} + \int p(x) [-\frac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]dx\\ &= log\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} -\frac{1}{2}E_{x\sim p(x)}[(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)] \end{aligned}$
第二部分同理可得：
$\begin{aligned} \int p(x)logq(x)dx &= log\frac{1}{(2\pi)^{n/2}|\Sigma_2|^{1/2}} -\frac{1}{2}E_{x\sim p(x)}[(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\\ \end{aligned}$

带入可得：
$\begin{aligned} D_{KL}(p, q) &= \int p(x)[logp(x) - logq(x)]dx \\ &= \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2}E_{x\sim p(x)} [(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)] \end{aligned}$

多元正态分布下期望矩阵化的表示结果：
$E[x^TAx] = tr(A\Sigma) + \mu^TA\mu$
证明过程如下：
$\begin{aligned} E[x^TAx] = E[tr(x^TAx)] = E[tr(Axx^T)] = tr[E(Axx^T)] &= tr[A\cdot E(xx^T)] \\ &= tr[A(\Sigma + \mu\mu^T)] \\ &= tr(A\Sigma) + tr(A\mu\mu^T) \\ &= tr(A\Sigma) + tr(\mu^TA\mu) \\ & = tr(A\Sigma) + \mu^TA\mu \end{aligned}$
整个证明过程用到了如下性质：

$x^TAx$ 是个标量，因此 $x^TAx=tr(x^TAx)=tr(Axx^T)$
$\Sigma=E[(x-\mu)(x-\mu)^T] = E[xx^T-x\mu^T-\mu x^T-\mu\mu^T]=E(xx^T)-\mu\mu^T$

进一步带入可得：
$\begin{aligned} D_{KL}(p, q) &= \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2}E_{x\sim p(x)} [(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]\\ &= \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2}tr(\Sigma_2^{-1}\Sigma_1) + (\mu_1 - \mu_2)^T\Sigma_2^{-1}(\mu_1-\mu_2)^T - \frac{1}{2}tr(\Sigma_1^{-1}\Sigma_1) - (\mu_1-\mu_1)^T\Sigma_2^{-1}(\mu_1-\mu_1)^T \\ &= \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2}tr(\Sigma_2^{-1}\Sigma_1) + (\mu_1 - \mu_2)^T\Sigma_2^{-1}(\mu_1-\mu_2)^T -\frac{1}{2}n \end{aligned}$

进一步延伸到VAE的训练过程，假设 $p(x)=N(\mu_1, \sigma_1)$ 为encoder估计出的隐变量 $z$ 概率分布的参数， $q(x)=N(\mu_2, \sigma_2)=(0, I)$ 为隐变量 $z$ 的先验分布。我们希望对学习到的隐变量分布进行约束，使其符合标准高斯分布，方便后续采样生成。则有:
$KL(N(\mu_1, \sigma_1), N(0, I)) = -log\sigma_1 + \frac{1}{2}(\sigma_1^2 + \mu_1^2) - \frac{1}{2}$

拉普拉斯分布

$f_x(x) = \frac{1}{2b}e^{-\frac{|x-\mu|}{b}}$
$\mu$ 是位置参数， $b$ 是尺度参数。
在这里插入图片描述

我们在统计学和机器学习中，根据具体情况来选择合适的概率分布模型来描述数据的分布情况。在某些情况下，我们假设数据分布服从拉普拉斯分布，而在其他情况下，我们则假设数据分布服从高斯分布。

拉普拉斯分布（Laplace Distribution）在描述数据分布时通常用于处理具有尖峰和厚尾的数据。它的概率密度函数有两个参数：位置参数（μ）和尺度参数（b）。拉普拉斯分布的形状类似于高斯分布，但它的尾部更厚，因此适用于对异常值或离群点比较敏感的情况。例如，在异常检测、稀疏建模和噪声建模等领域中常使用拉普拉斯分布。

高斯分布（Gaussian Distribution），也称为正态分布，是最常见的概率分布之一，广泛应用于统计学和自然科学中。高斯分布的概率密度函数由两个参数确定：均值（μ）和方差（σ²）。高斯分布的形状呈钟形曲线，对称分布，它适用于许多自然现象的建模，如测量误差、随机噪声和人群身高等。

选择使用拉普拉斯分布还是高斯分布取决于数据的特性和具体问题的需求。如果数据中存在离群点或异常值，并且我们对这些异常值比较敏感，那么可以考虑使用拉普拉斯分布。而如果数据相对较为集中且对异常值不敏感，那么高斯分布可能更适合。然而，这只是一种常见的假设，并不意味着所有情况下都适用。在实际应用中，我们常常需要通过对数据进行分析和模型选择，来判断使用哪种分布更符合实际情况。

Gibbs不等式

若 $\sum_{i=1}^np_i=\sum_{i=1}^nq_i=1$ ，且 $p_i, q_i \in (0, 1]$ ，则有：
$-\sum_i^np_ilogp_i\leq -\sum_i^n p_ilogq_i$
当且仅当 $p_i=q_i, \forall i$ 时，等号成立。

凸函数

convex function，是指函数图形上，任意两点连成的线段，皆位于图形的上方的实值函数。如单变的二次函数和指数函数。快速判断就是函数图形开口向上。

Jensen不等式

如果x是随机变量，f是凸函数，则有如下性质，称之为Jensen’s inequality（詹森不等式/琴生不等式）。
$\leq E[f(x)]$
ELBO证明中会用到对数似然，这里延伸下log(x)函数是凹函数，-log(x)是凸函数。则有：
$\geq E[log(x)]$

似然函数

likelihood function，译为似然函数。是一种关于统计模型中参数的函数，表示模型参数的似然性。假设随机变量x的概率密度函数为 $f(x|\theta)$ ，样本集D上有m个样本，则D上的似然函数写作 $L(\theta|x)= \prod_i^mf(x_i|\theta)$ 。

为什么要用对数似然？

对 $p (x)$ 取对数不影响单调性。
减少计算量。似然函数是每个数据点概率的连乘。取对数可以将连乘化为连加，同时如果概率分布中含有指数项，比如高斯分布，也能将指数项化为求和形式，进一步减少计算量。
利于结果更好的计算。因为概率在[0, 1]之间，因此概率连乘会变为一个很小的值，甚至可能会引起浮点数下溢，尤其是当数据集很大时，联合概率趋向于0，非常不利于计算。

泰勒近似

泰勒公式:
$f(x_0) + f^{'}(x_0)(x-x_0) + \frac{f^{''}(x_0)}{2!}(x-x_0)^2 + ... + \frac{f^{n}(x_0)}{n!}(x-x_0)^n + o((x-x_0)^n)$
麦克劳林公式（泰勒公式的特殊形式，在零点展开）：
$f^{'}(0)(x) + \frac{f^{''}(0)}{2!}x^2 + ... + \frac{f^{n}(0)}{n!}x^n + o(x^n)$
常见函数的麦克劳林展开：
$e^x = 1 + x + \frac{1}{2!}x^2 + \frac{1}{3!}x^3 + o(x^3)$
$\frac{1}{2!}x^2 + \frac{1}{3!}x^3 + o(x^3)$
$\frac{1}{3!}x^3 + \frac{1}{5!}x^5 + o(x^5)$
$\frac{1}{2!}x^2 + \frac{1}{4!}x^4 + o(x^4)$
$(1+x)^{\alpha} = 1 + \frac{\alpha}{1!}x + \frac{\alpha(\alpha-1)}{2!}x^2 + \frac{\alpha(\alpha-1)(\alpha-2)}{3!}x^3 + o(x^3)$
正常近似取到一阶或者二阶项即可。

信息论

信息量

$- l o g (p (X = x))$ 表示一个概率事件或者随机变量X取值x时的信息量。 $p (X = x)$ 为取值为x的概率。
信息量的单位随着计算公式中 $l o g$ 运算的底数而变化， $l o g$ 底数为2时单位为比特(bit)，log底数为e时，单位为奈特(nat)。

信息熵

信息熵就是期望信息量，即对于一个信号系统来说，对于每次的信号，在平均意义上为了编码这个信号需要使用的信息量。在一个信号系统中，信息熵最大的时候是当每个信号概率相等的时候。通过大数定律可知，信息熵是编码一个信号系统所需信息量多理论下界。
$\sum_{x\in X} p(x)logp(x)$

KL散度

全名Kullback-Leible散度，又称相对熵。用以衡量两个分布之间的距离， $D_{KL}(p, q)$ 表示真实分布为 $p$ 时，度量近似分布 $q$ 和真实分布之间的差异程度。

连续随机变量的KL散度：
$D_{KL}(p||q) = E_{x\sim p}[log\frac{p(x)}{q(x)}]=\int p(x)log\frac{p(x)}{q(x)} dx$
离散随机变量的KL散度：
$D_{KL}(p||q) = E_{x\sim p}[log\frac{p(x)}{q(x)}]=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}$

KL散度有如下特性：

不对称性： $D_{KL}(p||q) \neq D_{KL}(q||p)$ 。
非负性： $D_{KL}(p||q)\geq0$ 。

JS散度

Jensen-Shanno散度，是对称的。

交叉熵

交叉熵定义如下：
$E_{x\sim p}[-logq(x)]$
离散随机变量的交叉熵形式如下：
$E_{x\sim p}[-logq(x)] = -\sum_{x\in X}p(x)logq(x)$
连续随机变量的交叉熵形式如下：
$E_{x\sim p}[-logq(x)] = \int p(x)logq(x)dx$

交叉熵可由相对熵推导得到：
$\begin{aligned} D_{KL}(p||q) = E_{x\sim p}[log\frac{p(x)}{q(x)}]&=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)} \\ &=\sum_{x\in X}p(x)logp(x) - \sum_{x\in X}p(x)logq(x) \\ &=-H(p) + H(p, q) \end{aligned}$
$H (p)$ 为真实分布的信息熵，不影响模型参数优化。因此模型优化过程中，可以直接用交叉熵 $H (p, q$ 作为目标函数。

对于交叉熵，可以有个直观的解释：数据集服从真实分布 $p$ ，从数据集中抽取样本 $x$ ，该样本被抽到的概率为 $p (x)$ ，如果用近似分布 $q$ 去编码该样本，需要用到的信息量为 $- l o g q (x)$ 。对整个数据集求期望，当近似分布的参数优化至 $H (p, q) = H (p)$ 时，可以认为近似分布 $q (x)$ 已优化至和真实分布 $p (x)$ 一致。

Wiener Process

维纳过程，又称为布朗运动，它是一种连续时间，连续状态的独立增量过程，其增量服从正态分布 $N\sim(0, \Delta t)$ 。可以用以下公式来表示维纳过程：
$\sqrt{t} Z$
其中 $Z$ 是一个标准正态分布随机变量，t表示时间。对于维纳过程，我们可以证明其具有如下性质：

$W (0)$ = 0。
$W (t)$ 是一个连续的随机变量。
$W (t)$ 具有独立增量：对于任意 $0\leq t_1 < t_2 <...<t_n$ ，其增量 $W(t_{i+1})$ - $W(t_{i})$ 相互独立。
增量服从正态分布：对于任意 $0\leq s < t$ ，其增量 $W (t)$ - $W (s)$ 服从 $N\sim(0, t-s)$ 的正态分布。

SDE

Applied Stochastic Differential Equations
随机微分方程最泛化的表达形式:
$d x = f (x, t) d t + L (x, t) d w$
$f (x, t)$ 为drift函数，决定了系统的nominal dynamics， $L (x, t)$ 是扩散矩阵，决定了噪声如何进入系统。 $w$ 为布朗运动。