一些常用常新的数学公式（备查）

最新推荐文章于 2022-09-22 19:51:32 发布

petSym

最新推荐文章于 2022-09-22 19:51:32 发布

阅读量336

点赞数

分类专栏：数学文章标签：数学信息论

本文链接：https://blog.csdn.net/petsym/article/details/105882623

版权

7 篇文章 0 订阅

订阅专栏

概率论

多元正态分布
$\mathbf X\sim\mathrm N(\boldsymbol {\mu},\boldsymbol\Sigma)$
pdf:
$f_{\mathbf X}(x_1,x_2,...,x_k)=\frac{1}{\sqrt{(2\pi)^k|\boldsymbol\Sigma|}}e^{-\frac{1}{2}(\mathbf x-\boldsymbol\mu)^{\mathrm T}\boldsymbol\Sigma^{-1}(\mathbf x-\boldsymbol\mu)}$

Entropy

$H(X)=-\sum_{x\in \mathcal X}p(x)\log p(x)$
Cross-entropy
$-\sum_{x\in \mathcal X}P(x)\log Q(x)$
K-L divergence
$KL(P||Q)=\sum\limits_{x\in \mathcal X} P(x)\log \frac{P(x)}{Q(x)}\\ \not= \\ KL(Q||P)=\sum\limits_{x\in \mathcal X} Q(x)\log \frac{Q(x)}{P(x)}$
JSD
$JSD(P||Q)=\frac{1}{2}\Bigg[KL\bigg(P||\frac{P+Q}{2}\bigg)+KL\bigg(Q||\frac{P+Q}{2}\bigg)\Bigg]$
Wasserstein-distance

Wasserstein距离又叫Earth-Mover（EM，推土机）距离
$W(P_r,P_g)=\inf\limits_{\gamma\sim\prod(P_r,P_g)}\Bbb E_{(x,y)\sim\gamma}\bigg[||x-y||\bigg]$
其中 $\prod(P_r,P_g)$ 是联合分布，x为真实样本，y为生成样本。

从所有可能的联合分布中取样本距离期望值的下界。

Wasserstein距离相比KL散度、JS散度的优越性在于，即便两个分布没有重叠，Wasserstein距离仍然能够反映它们的远近。

KL散度和JS散度是突变的，要么最大要么最小，Wasserstein距离却是平滑的，如果我们要用梯度下降法优化 $\theta$ 这个参数，前两者根本提供不了梯度，Wasserstein距离却可以。类似地，在高维空间中如果两个分布不重叠或者重叠部分可忽略，则KL和JS既反映不了远近，也提供不了梯度，但是Wasserstein却可以提供有意义的梯度。

关注

专栏目录