散度和KL散度的介绍

最新推荐文章于 2024-06-16 10:45:52 发布

Paul-Huang

最新推荐文章于 2024-06-16 10:45:52 发布

阅读量1.4k

点赞数 2

分类专栏： GAN 文章标签：线性代数机器学习

本文链接：https://blog.csdn.net/huang1024rui/article/details/119986738

版权

GAN 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

本文深入探讨了梯度、散度和旋度在数学和物理学中的概念及其相互关系，特别是它们在向量分析中的作用。同时，介绍了KL散度在概率论和信息论中的重要性，特别是在机器学习和深度学习中的应用，如变分自编码器和GAN网络中。

摘要由CSDN通过智能技术生成

散度和KL散度的介绍

1. 梯度、散度与旋度

1.1 算子

定义一个向量算子 $\nabla$ (读作nabla或者del)：
$\nabla= \frac{\partial}{\partial x} \vec{e_x} + \frac{\partial}{\partial y} \vec{e_y} + \frac{\partial}{\partial z} \vec{e_z} \tag{1.1}$
该算子也叫哈密顿算子，其中 $\vec{e_x}, \vec{e_y}和\vec{e_z}$ 分别是 $X, Y, Z$ 方向的单位向量用线性代数的风格表示为( $T$ 为转置)：
$\nabla= [\frac{\partial}{\partial x}, \frac{\partial}{\partial y}, \frac{\partial}{\partial z}]^T \tag{1.2}$

1.2 梯度

$\color{red}梯度是一个向量$ ，它表示函数在某个点处往哪个方向走，变化最快，即梯度等于方向导数的最大值。
对于一个 $\color{red}标量函数\psi$ ，定义它的梯度为：
$\begin{aligned} grad(\psi) = \nabla . \psi &= [\frac{\partial}{\partial x}, \frac{\partial}{\partial y}, \frac{\partial}{\partial z}]^T . \psi\\ &= [\frac{\partial \psi}{\partial x}, \frac{\partial \psi}{\partial y}, \frac{\partial \psi}{\partial z}]^T \end{aligned} \tag{1.3}$
梯度是 $\color{red}算子点乘标量函数$ 的过程。
只有 $\color{red}标量函数才有梯度$ ，梯度是 $\color{red}纯量函数\Rightarrow 向量场$ 的过程。

1.3 散度

$\color{red}散度是一个标量$ ，它表示一个闭合曲面内单位体积的通量。
$\color{red}散度的作用对象是一个矢量函数$ ，对于一个 $\color{red}矢量函数\vec{f} = [f_x, f_y, f_z]^T$ ，散度的定义为：
$\begin{aligned} div(f) = \nabla\cdot \vec{f} = \nabla^T \vec{f} &= [\frac{\partial}{\partial x}, \frac{\partial}{\partial y}, \frac{\partial}{\partial z}] \left[ \begin{matrix} f_x \\ f_y \\ f_z \end{matrix} \right] \\ &= \frac{\partial f_x}{\partial x} + \frac{\partial f_y}{\partial y} + \frac{\partial f_z}{\partial z} \end{aligned} \tag{1.4}$
可以将散度类比于线性代数中的 $\color{red}向量内积$ ，两个向量的内积是一个标量。
散度是针对 $\color{red}矢量函数$ ，是 $\color{red}向量场\Rightarrow 纯量函数$ 的过程。
某点散度代表了该点向外的通量体密度，其物理意义可以理解为：定量给出向量场中任一点是否为源点或汇点。
- 若某点散度等于0，则说明其通量为0，流进=流出；
- 若某点散度大于0，说明流出>流进，相当于一个 $\color{red}源点(source)$ ；
- 若某点散度小于0，说明流出<流进，相当于一个 $\color{red}汇点(sink)$ 。
应用：流体力学中不可压缩条件为：速度场的散度为0。

1.4 旋度

$\color{red}旋度是一个向量$ ，它表示单位面积的环量，即环量面密度。
$\color{red}旋度的作用对象是一个矢量函数$ ，对于一个 $\color{red}矢量函数\vec{f} = [f_x, f_y, f_z]^T$ ，旋度的定义为：
$\nabla\times \vec{f} = \left| \begin{matrix} \vec{e_x} & \vec{e_y} & \vec{e_z} \\ \frac{\partial}{\partial x} & \frac{\partial}{\partial y} & \frac{\partial}{\partial z} \\ f_x & f_y & f_z \end{matrix} \right| \tag{1.5}$
公式(1.5)，可以将其看做是 $\color{red}行列式展开计算$ ，其中 $(\vec{e_x}, \vec{e_y}, \vec{e_z})$ 表示 $x, y, z$ 方向的单位向量，即：
$\begin{aligned} \nabla\times \vec{f} &= (-1)^{1+1} \vec{e_x} (\frac{\partial f_z}{\partial y} - \frac{\partial f_y}{\partial z}) + (-1)^{1+2} \vec{e_y} (\frac{\partial f_z}{\partial x} - \frac{\partial f_x}{\partial z}) + (-1)^{1+3} \vec{e_z} (\frac{\partial f_y}{\partial x} - \frac{\partial f_x}{\partial y}) \\ &= \vec{e_x} (\frac{\partial f_z}{\partial y} - \frac{\partial f_y}{\partial z}) - \vec{e_y} (\frac{\partial f_z}{\partial x} - \frac{\partial f_x}{\partial z}) + \vec{e_z} (\frac{\partial f_y}{\partial x} - \frac{\partial f_x}{\partial y}) \end{aligned} \tag{1.6}$
散度是针对 $\color{red}矢量函数$ ，是 $\color{red}向量场\Rightarrow 向量场$ 的过程。

1.5 对标量场的梯度求其散度

$\begin{aligned} div (grad(\psi)) & = \nabla \cdot (\nabla \psi) = \nabla^T (\nabla \psi) \\&= [\frac{\partial}{\partial x}, \frac{\partial}{\partial y}, \frac{\partial}{\partial z}] \left[ \begin{matrix} \frac{\partial \psi}{\partial x} \\ \frac{\partial \psi}{\partial y} \\ \frac{\partial \psi}{\partial z} \end{matrix} \right]\\ &= \frac{\partial^2 \psi}{\partial x^2} + \frac{\partial^2 \psi}{\partial y^2} + \frac{\partial^2 \psi}{\partial z^2} \end{aligned} \tag{1.7}$
令公式(1.7)等于0，就得到了 $\color{red}Laplacian方程$ ：
$\frac{\partial^2 \psi}{\partial x^2} + \frac{\partial^2 \psi}{\partial y^2} + \frac{\partial^2 \psi}{\partial z^2} = 0 \tag{1.8}$

1.6 相关性质

$\color{red}梯度的旋度恒为0向量$ 。注意这个0是零向量，不是标量的0。

$\begin{aligned} rot(grad(\psi)) & = \nabla\times \nabla\psi = \left| \begin{matrix} \vec{e_x} & \vec{e_y} & \vec{e_z} \\ \frac{\partial}{\partial x} & \frac{\partial}{\partial y} & \frac{\partial}{\partial z} \\ \frac{\partial \psi}{\partial x} & \frac{\partial \psi}{\partial y} & \frac{\partial \psi}{\partial z} \end{matrix} \right| \\ &=\vec{e_x} (\frac{\partial^2 \psi}{\partial y \partial z} - \frac{\partial^2 \psi}{\partial z \partial y}) - \vec{e_y} (\frac{\partial^2 \psi}{\partial x \partial z} - \frac{\partial^2 \psi}{\partial z \partial x}) + \vec{e_z} (\frac{\partial^2 \psi}{\partial x \partial y} - \frac{\partial^2 \psi}{\partial y \partial x}) \\ &= \boldsymbol{0} \end{aligned} \tag{1.9}$
$\color{red}旋度的散度恒为0标量$ 。注意这个0是是标量的0。

$\begin{aligned} rot(div(\vec{f})) &= \nabla\cdot (\nabla\times \vec{f}) = \nabla^T (\nabla \times \vec{f}) \\ &= [\frac{\partial}{\partial x}, \frac{\partial}{\partial y}, \frac{\partial}{\partial z}] \left[ \begin{matrix} \frac{\partial f_z}{\partial y} - \frac{\partial f_y}{\partial z} \\ -(\frac{\partial f_z}{\partial x} - \frac{\partial f_x}{\partial z})\\ \frac{\partial f_y}{\partial x} - \frac{\partial f_x}{\partial y} \end{matrix} \right] \\ &= (\frac{\partial^2 f_z}{\partial y \partial x} - \frac{\partial^2 f_y }{\partial z \partial x}) - (\frac{\partial^2 f_z}{\partial x \partial y} - \frac{\partial^2 f_x}{\partial z \partial y}) + (\frac{\partial^2 f_y}{\partial x \partial z} - \frac{\partial^2 f_x}{\partial y \partial z}) \\ &= 0 \end{aligned} \tag{1.10}$

2. KL散度

2.1 KL散度简介

KL散度的概念来源于概率论和信息论中。
KL散度又被称为： $\color{red}相对熵$ 、互熵、鉴别信息、Kullback熵、Kullback-Leible散度(即KL散度的简写)。
在机器学习、深度学习领域中，KL散度被广泛运用于变分自编码器中(Variational AutoEncoder,简称VAE)、EM算法、GAN网络中。

2.2 KL散度的定义

KL散度的定义是建立在熵(Entropy)的基础上的。此处以离散随机变量为例，先给出熵的定义，再给定KL散度定义。

$\color{red}熵定义$
若一个离散随机变量 $X$ 的可能取值为 $X=\{x_1,x_2,⋯,x_n\}$ ，而对应的概率为 $p_i=p(X=x_i)$ ，则随机变量 $X$ 的 $\color{red}熵定义$ 为：
$H(X)=−∑_{i=1}^np(x_i)\log p(x_i)\tag{2.1}$

规定当 $p(x_i)=0$ 时， $p(x_i)\log p(x_i)=0$ 。
$\color{red}相对熵$
若有两个随机变量 $P$ 、 $Q$ ，且其概率分布分别为 $p (x) 、 q (x)$ ，则 $\color{red}p相对q$ 的 $\color{red}相对熵$ 为：
$\color{red}D_{KL}(p||q)=∑_{i=1}^np(x)\log{\frac{p(x)}{q(x)}}\tag{2.2}$
之所以称之为 $\color{red}相对熵$ ，是因为其可以通过两随机变量的交叉熵(Cross-Entropy)以及信息熵推导得到：
推导：
1. 针对上述离散变量的概率分布 $p (x) 、 q (x)$ 而言，其交叉熵定义为：
  $\begin{aligned}H(p,q)=∑_xp(x)\log{\frac{1}{q(x)}}=−∑_xp(x)\log q(x)\end{aligned}$
  在信息论中，交叉熵可认为是对预测分布 $q (x)$ 用真实分布 $p (x)$ 来进行编码时所需要的信息量大小。
2. KL散度或相对熵可通过下式得出：
  $\begin{aligned} D_{K L}(p \| q) &=H(p, q)-H(p) \\ &=-\sum_{x} p(x) \log q(x)-\sum_{x}-p(x) \log p(x) \\ &=-\sum_{x} p(x)(\log q(x)-\log p(x)) \\ &=-\sum_{x} p(x) \log \frac{q(x)}{p(x)} \end{aligned}$

2.3 KL散度的数学性质

KL散度可以用来衡量两个分布之间的差异，其具有如下数学性质：

2.3.1 正定性

$\color{red}D_{KL}(p||q)≥0\tag{2.3}$
可用Gibbs 不等式直接得出。先给出 $\color{blue}Gibbs不等式$ 的内容：
若 $∑^n_{i=1}p_i=∑^n_{i=1}q_i=1$ ,且 $p_i,q_i∈(0,1]$ ,则有：
$−∑_i^n{p_i}\log p_i≤−∑_i^n{p_i}\log q_i\tag{2.4}$
当且仅当 $p_i=q_i(∀i)$ 等号成立。

2.3.2 不对称性

KL散度并不是一个真正的度量或者距离，因为它不具有对称性：
$\color{red}D(p∥q)≠D(q∥p)\tag{2.5}$
各种散度中，Jensen-Shannon divergence( $\color{red}JS散度$ )是 $\color{red}对称的$ 。
各种散度参考下一章节。

2.4 KL散度的理解

2.4.1 统计学意义上的KL散度:

在统计学意义上来说，KL散度可以用来 $\color{red}衡量两个分布之间的差异程度$ 。
若两个分布差异越小，KL散度越小；反之亦反。当两分布一致时，其KL散度为0。
正是因为其可以衡量两个分布之间的差异，所以在VAE、EM、GAN中均有使用到KL散度。

2.4.2 信息论角度的KL散度:

KL散度在信息论中的专业术语为相对熵。
KL散度可理解为 $\color{red}编码系统对信息进行编码时所需要的平均附加信息量$ 。
1. 其中信息量的单位随着计算公式中log运算的底数而变化。
  - log底数为2：单位为比特(bit)
  - log底数为e：单位为奈特(nat)
2. 参考阅读:
  - 英文版:Kullback-Leibler Divergence Explained
  - 英文版中文翻译: 解释Kullback-Leibler散度

2.5 连续随机变量的KL散度

2.5.1 一维高斯分布的随机变量KL散度

定义
假设 $p$ 和 $q$ 均是服从 $(μ_1,σ^2_1)$ 和 $N (μ_2,σ^2_2)$ 的随机变量的概率密度函数 (probability density function) ，则从 $q$ 到 $p$ 的KL散度定义为：
$\color{red}\begin{aligned} D_{K L}(p \| q) &=\int[\log (p(x))-\log (q(x))] p(x) d x \\ &=\int[p(x) \log (p(x))-p(x) \log (q(x))] d x \end{aligned}\tag{2.6}$
化简公式
已知正态分布的概率密度函数(probability density function)如下式：
$\begin{aligned} p(x) &=\frac{1}{\sqrt{2 \pi} \sigma_{1}} \exp \left(-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}\right) \\ q(x) &=\frac{1}{\sqrt{2 \pi} \sigma_{2}} \exp \left(-\frac{\left(x-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}\right) \end{aligned}\tag{2.7}$
- 公式(2.6)第一项 $∫p(x)\log (p(x))dx$ 计算如下：
  $\begin{aligned} \int p(x) \log (p(x)) d x &=\int p(x) \log \left[\frac{1}{\sqrt{2 \pi} \sigma_{1}} \exp \left(-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}\right)\right] d x \\ &=\int p(x)\left[\log \frac{1}{\sqrt{2 \pi} \sigma_{1}}+\log \exp \left(-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}\right)\right] d x \\ &=-\frac{1}{2} \log \left(2 \pi \sigma_{1}^{2}\right)+\int p(x)\left(-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}\right) d x \\ &=-\frac{1}{2} \log \left(2 \pi \sigma_{1}^{2}\right)-\frac{\int p(x) x^{2} d x-\int p(x) 2 x \mu_{1} d x+\int p(x) \mu_{1}^{2} d x}{2 \sigma_{1}^{2}} \\ &=-\frac{1}{2} \log \left(2 \pi \sigma_{1}^{2}\right)-\frac{\left(\mu_{1}^{2}+\sigma_{1}^{2}\right)-\left(2 \mu_{1} \times \mu_{1}\right)+\mu_{1}^{2}}{2 \sigma_{1}^{2}} \\ &=-\frac{1}{2}\left[1+\log \left(2 \pi \sigma_{1}^{2}\right)\right] \end{aligned}\tag{2.8}$
- 公式(2.6)第二项可以同第一项按照类似的方式进行展开化简，如下：
  $\begin{aligned} \int p(x) \log (q(x)) d x &=\int p(x) \log \left[\frac{1}{\sqrt{2 \pi} \sigma_{2}} \exp \left(-\frac{\left(x-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}\right)\right] d x \\ &=\int p(x)\left[\log \frac{1}{\sqrt{2 \pi} \sigma_{2}}+\log \exp \left(-\frac{\left(x-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}\right)\right] d x \\ &=-\frac{1}{2} \log \left(2 \pi \sigma_{2}^{2}\right)+\int p(x)\left(-\frac{\left(x-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}\right) d x \\ &=-\frac{1}{2} \log \left(2 \pi \sigma_{2}^{2}\right)-\frac{\int p(x) x^{2} d x-\int p(x) 2 x \mu_{2} d x+\int p(x) \mu_{2}^{2} d x}{2 \sigma_{2}^{2}} \\ &=-\frac{1}{2} \log \left(2 \pi \sigma_{2}^{2}\right)-\frac{\left(\mu_{1}^{2}+\sigma_{1}^{2}\right)-\left(2 \mu_{2} \times \mu_{1}\right)+\mu_{2}^{2}}{2 \sigma_{2}^{2}} \\ &=-\frac{1}{2} \log \left(2 \pi \sigma_{2}^{2}\right)-\frac{\sigma_{1}^{2}+\left(\mu_{1}-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}\end{aligned}\tag{2.9}$
- 简化一维高斯分布的随机变量KL散度公式如下：
  $\color{red}\begin{aligned}K L(p, q) &=\int[p(x) \log (p(x))-p(x) \log (q(x))] d x \\ &=-\frac{1}{2}\left[1+\log \left(2 \pi \sigma_{1}^{2}\right)\right]-\left[-\frac{1}{2} \log \left(2 \pi \sigma_{2}^{2}\right)-\frac{\sigma_{1}^{2}+\left(\mu_{1}-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}\right] \\ &=\log \frac{\sigma_{2}}{\sigma_{1}}+\frac{\sigma_{1}^{2}+\left(\mu_{1}-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}-\frac{1}{2}\end{aligned}\tag{2.10}$

2.5.2 多元高斯分布的随机变量KL散度

假设多元高斯分布 $p$ 和 $q$ :
$\begin{aligned} &p(x) \sim N\left(\mu_{1}, \Sigma_{1}^{2}\right) = \frac{1}{(2 \pi)^{N / 2}\left|\Sigma_{1}\right|^{1 / 2}} \exp \left(-\frac{1}{2}\left(x-\mu_{1}\right)^{T} \Sigma_{1}^{-1}\left(x-\mu_{1}\right)\right) \\ &q(x) \sim N\left(\mu_{2}, \Sigma_{2}^{2}\right) = \frac{1}{(2 \pi)^{N / 2}\left|\Sigma_{2}\right|^{1 / 2}} \exp \left(-\frac{1}{2}\left(x-\mu_{2}\right)^{T} \Sigma_{2}^{-1}\left(x-\mu_{2}\right)\right) \end{aligned}\tag{2.11}$
其中 $\mu_{1}, \mu_{2}$ 为均值， $\Sigma_{1}, \Sigma_{2}$ 为方差。协方差矩阵 $\Sigma$ 满足对称正定性质， $N$ 为多元变量 $x$ 的维数:
$\begin{aligned} & \mu_{1}, \mu_{2} \in \mathbb{R}^{N \times 1} \\ &\Sigma_{1}, \Sigma_{2} \in \mathbb{R}^{N \times N} \end{aligned}\tag{2.12}$
多元高斯分布随机变量的KL散度写为(推导与一维高斯分布的随机变量KL散度相似)：
$\begin{aligned} &\quad D_{KL}(p(x)||q(x))=\int p(x) \log \frac{p(x)}{q(x)} dx=\mathbb{E}_{p(x)}[\log p(x)-\log q(x)]\\ &=\frac{1}{2}\mathbb{E}_{p(x)}[-\log\det \Sigma_1-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)+\log\det \Sigma_2+(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}+\frac{1}{2}\mathbb{E}_{p(x)}[-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)+(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}+\frac{1}{2}\mathbb{E}_{p(x)}\{-tr[\Sigma_1^{-1}(x-\mu_1)(x-\mu_1)^T]+tr[\Sigma_2^{-1}(x-\mu_2)(x-\mu_2)^T]\}\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}-\frac{1}{2}tr\{\mathbb{E}_{p(x)}[\Sigma_1^{-1}(x-\mu_1)(x-\mu_1)^T]\} +\frac{1}{2}tr\{\mathbb{E}_{p(x)}[\Sigma_2^{-1}(x-\mu_2)(x-\mu_2)^T]\}\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}-\frac{N}{2} +\frac{1}{2}tr\{\mathbb{E}_{p(x)}[\Sigma_2^{-1}(xx^T-\mu_2x^T-x\mu_2^T+\mu_2\mu_2^T)]\}\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}-\frac{N}{2} +\frac{1}{2}tr[\Sigma_2^{-1}(\Sigma_1+\mu_1\mu_1^T-\mu_2\mu_1^T-\mu_1\mu_2^T+\mu_2\mu_2^T)]\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}-\frac{N}{2} +\frac{1}{2}tr(\Sigma_2^{-1}\Sigma_1)+\frac{1}{2}tr[\Sigma_2^{-1}(\mu_1\mu_1^T-\mu_2\mu_1^T-\mu_1\mu_2^T+\mu_2\mu_2^T)]\\ &=\frac{1}{2}\{\log \frac{\det \Sigma_2}{\det \Sigma_1}-N +tr(\Sigma_2^{-1}\Sigma_1)+tr(\mu_1^T\Sigma_2^{-1}\mu_1-\mu_1^T\Sigma_2^{-1}\mu_2-\mu_2^T\Sigma_2^{-1}\mu_1+\mu_2^T\Sigma_2^{-1}\mu_2)\}\\ &=\frac{1}{2}\{\log \frac{\det \Sigma_2}{\det \Sigma_1}-N +tr(\Sigma_2^{-1}\Sigma_1)+tr(\mu_1^T\Sigma_2^{-1}\mu_1-2\mu_1^T\Sigma_2^{-1}\mu_2+\mu_2^T\Sigma_2^{-1}\mu_2)\}\\ &=\frac{1}{2}\{\log \frac{\det \Sigma_2}{\det \Sigma_1}-N +tr(\Sigma_2^{-1}\Sigma_1)+(\mu_2-\mu_1)^T\Sigma_2^{-1}(\mu_2-\mu_1)\}\\ \end{aligned}\tag{2.13}$
其中运用到的一些矩阵等式：
1. $E p (\cdot)$ 代表⋅在概率密度函数 $p (x)$ 的期望。多元正态分布下期望矩阵化的表示
  $\color{blue}E(x^TAx)=tr(AΣ)+μ^TAμ\tag{2.14}$
2. 矩阵的迹的性质
  $\color{blue}\begin{array}{l} \text { 矩阵线性组合迹不变: } \operatorname{tr}(\alpha A+\beta B)=\alpha \operatorname{tr}(A)+\beta \operatorname{tr}(B)\\ \text { 矩阵转置迹不变: } \operatorname{tr}(A)=\operatorname{tr}\left(A^{T}\right)\\ \text { 两方阵相乘交换迹不变： } \operatorname{tr}(A B)=\operatorname{tr}(B A)\\ \text { 轮换不变性: } \operatorname{tr}(A B C)=\operatorname{tr}(B C A)=\operatorname{tr}(C A B) \end{array}\tag{2.15}$
3. 对于列向量 $\lambda$ ， $\lambda^TA\lambda$ 的结果是一个标量，而标量的迹就是这个标量，即 $tr(\lambda^TA\lambda)=\lambda^TA\lambda$ ，因此
  $\color{blue}\lambda^TA\lambda=tr(\lambda^TA\lambda)=tr(A\lambda\lambda^T)\tag{2.16}$
4. 多元高斯分布中均值 $μ$ 和方差 $Σ$ 的性质：
  $\color{blue}E[xx^T]=Σ+μμ^T\tag{2.17}$
  $\color{blue}E(x^TAx)=tr(AΣ)+μ^TAμ\tag{2.18}$

因此：
$\color{red}\begin{aligned} D_{K L}(p \| q)=& \frac{1}{2} \log \frac{\left|\Sigma_{2}\right|}{\left|\Sigma_{1}\right|}+\frac{1}{2} E_{p(x)}\left[\left(x-\mu_{2}\right)^{T} \Sigma_{2}^{-1}\left(x-\mu_{2}\right)-\left(x-\mu_{1}\right)^{T} \Sigma_{1}^{-1}\left(x-\mu_{1}\right)\right] \\ =& \frac{1}{2} \log \frac{\left|\Sigma_{2}\right|}{\left|\Sigma_{1}\right|}+\frac{1}{2} \operatorname{tr}\left(\Sigma_{2}^{-1} \Sigma_{1}\right)+\left(\mu_{1}-\mu_{2}\right)^{T} \Sigma_{2}^{-1}\left(\mu_{1}-\mu_{2}\right)^{T}-\frac{1}{2} N\end{aligned}\tag{2.19}$

参考：

Paul-Huang

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
散度和KL散度的介绍

散度和KL散度的介绍1. 梯度、散度与旋度1.1 算子定义一个向量算子∇\nabla∇(读作nabla或者del)：∇=∂∂xex⃗+∂∂yey⃗+∂∂zez⃗(1.1)\nabla= \frac{\partial}{\partial x} \vec{e_x} + \frac{\partial}{\partial y} \vec{e_y} + \frac{\partial}{\partial z} \vec{e_z} \tag{1.1}∇=∂x∂ex+∂y∂ey+∂z∂ez(1.1
复制链接

扫一扫

专栏目录