多变量t分布的KL散度

最新推荐文章于 2021-03-11 11:53:31 发布

昕晛

最新推荐文章于 2021-03-11 11:53:31 发布

阅读量1.8k

点赞数 2

分类专栏：统计、散度、熵文章标签：信息熵统计学

本文链接：https://blog.csdn.net/sinat_33598258/article/details/103867069

版权

统计、散度、熵专栏收录该内容

3 篇文章 0 订阅

订阅专栏

多变量t分布的KL散度

多变量学生t分布（简称多变量t分布，也称多元t分布，Multivariate t distribution)的定义如下：
$f(\mathbf{x})=C_n(\det \Sigma)^{-1/2}[1+\frac{1}{\nu}(\mathbf{x}-\mu)^T\Sigma^{-1}(\mathbf{x}-\mu)]^{-(\nu+n)/2}$
其中随机变量 $x\in \mathbb{R}^n$ , $\mu\in \mathbb{R}^n$ 表示均值， $\Sigma\in \mathbb{R}^{n\times n}$ 表示相关矩阵（correlation matrix）或者尺度矩阵（scale matrix）， $\nu$ 表示自由度， $n$ 表示 $x$ 的维数， $C_n$ 为归一化常数，其定义如下：
$C_n=(\pi\nu)^{-n/2}\Gamma[(\nu+n)/2]/\Gamma(\nu/2)$
其中 $\Gamma(\cdot)$ 为Gamma函数。

值得注意的是相关矩阵不是统计中一般意义上的协方差矩阵，但其和协方差矩阵有关系，后面将给出。

考虑两个多变量t分布 $p (x)$ 和 $q (x)$ ，假设 $p (x)$ 是已知的真值多变量t分布， $q (x)$ 未知的多变量t分布，用来近似 $p (x)$ ，两个分布的表示如下：
$p(x)=St(x;\mu_1,\Sigma_1,\nu_1)\\ q(x)=St(x;\mu_2,\Sigma_2,\nu_2)$
根据KL散度的定义， $D_{KL}(p(x)||q(x))$ 可以写成：
$\begin{aligned} &\quad D_{KL}(p(x)||q(x))=\mathbb{E}_{p(x)}[\log p(x)-\log q(x)]\\ &=\mathbb{E}_{p(x)}\left\{ \{\log \Gamma(\frac{\nu_1+n}{2})-\log \Gamma(\frac{\nu_1}{2})-\frac{1}{2}\log (\det \Sigma_1)-\frac{n}{2}\log(\nu_1\pi)\right.\\ &\quad \left. -\frac{\nu_1+n}{2}\log[1+\frac{1}{\nu_1}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]\} -\{\log \Gamma(\frac{\nu_2+n}{2})-\log \Gamma(\frac{\nu_2}{2})\right.\\ &\quad \left. -\frac{1}{2}\log (\det \Sigma_2)-\frac{n}{2}\log(\nu_2\pi)-\frac{\nu_2+n}{2}\log[1+\frac{1}{\nu_2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\} \right\}\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}+\frac{n}{2}\log \frac{\nu_2}{\nu_1}+\log \Gamma(\frac{\nu_1+n}{2})-\log \Gamma(\frac{\nu_1}{2})-\log \Gamma(\frac{\nu_2+n}{2})+\log \Gamma(\frac{\nu_2}{2})\\ &\quad -\frac{\nu_1+n}{2}\mathbb{E}_{p(x)}\{\log[1+\frac{1}{\nu_1}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]\}\\ &\quad +\frac{\nu_2+n}{2}\mathbb{E}_{p(x)}\{\log[1+\frac{1}{\nu_2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\} \end{aligned}$
通过多变量t分布的最大熵推导，可以证明：
$\mathbb{E}_{p(x)}\{\log[1+\frac{1}{\nu_1}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]\}=w(\frac{n+\nu_1}{2};\frac{n}{2})$
此处 $w(x;\alpha)=\psi(x)-\psi(x-\alpha),x>\alpha$ , 而 $\psi(\cdot)$ 记为digamma函数，其定义如下：
$\psi(t)=\mathrm{d}\log \Gamma(t)/\mathrm{d}t$
同时考虑自然对数函数 $\log(\cdot)$ 是凹函数，使用Jensen不等式就可以得到以下非常有用的不等式：
$\mathbb{E}_{p(x)}\{\log(\cdot)\} \leq \log\{\mathbb{E}_{p(x)}(\cdot)\}$
因此
$\begin{aligned} &\quad \mathbb{E}_{p(x)}\{\log[1+\frac{1}{\nu_2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\}\\ & \leq \log\{\mathbb{E}_{p(x)}[1+\frac{1}{\nu_2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\}\\ & =\log\{\mathbb{E}_{p(x)}[1+\frac{1}{\nu_2}(x-\mu_1+\mu_1-\mu_2)^T\Sigma_2^{-1}(x-\mu_1+\mu_1-\mu_2)]\}\\ &=\log\{\mathbb{E}_{p(x)}[1+\frac{1}{\nu_2}(x-\mu_1)^T\Sigma_2^{-1}(x-\mu_1)+\frac{1}{\nu_2}(\mu_1-\mu_2)^T\Sigma_2^{-1}(\mu_1-\mu_2)\\ &\quad +\frac{1}{\nu_2}(x-\mu_1)^T\Sigma_2^{-1}(\mu_1-\mu_2)+\frac{1}{\nu_2}(\mu_1-\mu_2)^T\Sigma_2^{-1}(x-\mu_1)]\}\\ &=\log\left\{\mathbb{E}_{p(x)}\{ 1+\frac{1}{\nu_2}tr[\Sigma_2^{-1}(x-\mu_1)(x-\mu_1)^T]+\frac{1}{\nu_2}tr[\Sigma_2^{-1}(\mu_1-\mu_2)(\mu_1-\mu_2)^T] \}\right\}\\ &=\log\left\{1+\frac{1}{\nu_2}tr(\Sigma_2^{-1}\tilde\Sigma_1)+\frac{1}{\nu_2}tr[\Sigma_2^{-1}(\mu_1-\mu_2)(\mu_1-\mu_2)^T] \right\} \end{aligned}$
其中 $\tilde\Sigma_1$ 记为多变量t分布 $p (x)$ 的协方差矩阵，它和相关矩阵的关系如下：
$\tilde\Sigma_1=\frac{\nu_1}{\nu_1-2}\Sigma_1$
上式需要多变量t分布 $p (x)$ 的自由度 $\nu_1$ 满足以下条件：
$\nu_1>2$
因此我们可以得到两个多变量t分布的KL散度的上界(upper bound)：
$\begin{aligned} &\quad D_{KL}(p(x)||q(x))=\mathbb{E}_{p(x)}[\log p(x)-\log q(x)]\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}+\frac{n}{2}\log \frac{\nu_2}{\nu_1}+\log \Gamma(\frac{\nu_1+n}{2})-\log \Gamma(\frac{\nu_1}{2})-\log \Gamma(\frac{\nu_2+n}{2})+\log \Gamma(\frac{\nu_2}{2})\\ &\quad -\frac{\nu_1+n}{2}\mathbb{E}_{p(x)}\{\log[1+\frac{1}{\nu_1}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]\}\\ &\quad +\frac{\nu_2+n}{2}\mathbb{E}_{p(x)}\{\log[1+\frac{1}{\nu_2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\}\\ &\leq \frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}+\frac{n}{2}\log \frac{\nu_2}{\nu_1}+\log \Gamma(\frac{\nu_1+n}{2})-\log \Gamma(\frac{\nu_1}{2})-\log \Gamma(\frac{\nu_2+n}{2})+\log \Gamma(\frac{\nu_2}{2})\\ &\quad -\frac{\nu_1+n}{2}[\psi(\frac{\nu_1+n}{2})-\psi(\frac{\nu_1}{2})]\\ &\quad +\frac{\nu_2+n}{2}\log\left\{1+\frac{1}{\nu_2}tr(\Sigma_2^{-1}\tilde\Sigma_1)+\frac{1}{\nu_2}tr[\Sigma_2^{-1}(\mu_1-\mu_2)(\mu_1-\mu_2)^T] \right\}\\ \end{aligned}$
参考：
[1]: https://www.researchgate.net/publication/335580775_A_Novel_Kullback-Leilber_Divergence_Minimization-Based_Adaptive_Student%27s_t-Filter
[2]: KotzS,NadarajahS.Multivariatet-distributionsandtheirapplicationsM.CambridgeUniversityPress,2004.

昕晛

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
多变量t分布的KL散度

多变量t分布的KL散度多变量学生t分布（简称多变量t分布，也称多元t分布，Multivariate t distribution)的定义如下：f(x)=Cn(det⁡Σ)−1/2[1+1ν(x−μ)TΣ−1(x−μ)]−(ν+n)/2f(\mathbf{x})=C_n(\det \Sigma)^{-1/2}[1+\frac{1}{\nu}(\mathbf{x}-\mu)^T\Sigma^{-...
复制链接

扫一扫

专栏目录