混合高斯聚类的一种实现方法

最新推荐文章于 2021-07-17 21:08:53 发布

田神

最新推荐文章于 2021-07-17 21:08:53 发布

阅读量1k

点赞数 1

分类专栏：机器视觉机器学习与神经网络文章标签：算法

本文链接：https://blog.csdn.net/StreamRock/article/details/93207316

版权

本文介绍了混合高斯聚类模型的一种实现方法，通过优化KL散度实现聚类，适用于目标检测中替代NMS。文章详细阐述了算法原理、聚类迭代过程，并通过实验展示了方法的有效性，指出其局限性和优化方向。

摘要由CSDN通过智能技术生成

近来看了一篇文章《Hierarchical Clustering of a Mixture Model》【1】，它是一篇比较早的文章了，2005年，Jacob Goldberger Sam Roweis，Department of Computer Science, University of Toronto。文中讲到一种简单的高斯聚类方法，近来有文章将它用于目标检测（Object Detection）最后阶段，以代替NMS（non maximum suppression，非极大值抑制），获得更好的bbox预测。我试了一下，这种方法有其独到之处，经它处理后的bbox相互重叠的情况有很大改善，而且较NMS要“软”一些，没那么“硬”，生成的box样子要比NMS能更好地覆盖目标。接下来，我将结合自己的代码和实验进行小结。

一、高斯聚类

混合高斯模型（MoG，Gaussian Mixture Model）是一种常见的参数化概率模型，其表达形式如下：
$\sum^k_{i=1}\alpha_iN(y;\mu_i,\Sigma_i)= \sum^k_{i=1}\alpha_i f_i(y)\qquad (1)$
$f (y)$ 是由 $k$ 个d维高斯分布构成的混合分布，各高斯分布 $f_i(y)$ 的期望和方差分别为 $\mu_i,\Sigma_i$ 。可将每个独立的高斯分布称为一个高斯核，所谓高斯聚类就是将多个高斯核进行聚类，用较少的高斯核来近似表达它，此过程描述如下：
$=\sum^k_{i=1}\alpha_i f_i(y)\approx \sum^m_{j=1}\beta_j g_j(y)\quad \text{, and }k\gt m\qquad(2)$
(2)式中 $g_j(y)$ 也是与 $f_i(y)$ 同维度的高斯分布，且约等于式左边的高斯核数量要大于右边的高斯核数量。所谓高斯聚类，指的就是用较少的高斯核混合分布来拟合较多核的高斯混合分布。
要完成 $\sum^m_{j=1}\beta_j g_j(y)$ 对 $F(y)=\sum^k_{i=1}\alpha_i f_i(y)$ 的拟合即求使分布 $G (y)$ 与分布 $F (y)$ 距离最小的参数，设 $\theta$ 是 $G (y)$ 的可调参数集，于是 $G (y)$ 可写为 $G_{\theta}(y)$ ，于是拟合问题就是：
$\theta=\arg\min_{\theta} {Distance}(G_{\theta},F)\qquad (3)$
$G (y)$ 与 $F (y)$ 是两个分布，衡量概率分布的距离可以用KL散度：
$KL(G,F)=\mathbb E_{F}(\log\frac{p_g}{p_f})\qquad(4)$
有了衡量拟合效果的距离定义（KL），有了可控参数模型（ $G (y)$ ），似乎拟合问题就可以直接转化为最优化问题了：将 $G_{\theta}(y)$ 和 $F (y)$ 是代入（3）、（4），距离KL对参数集（ $\theta=\{\beta,\mu,\Sigma\}$ ）求偏导，偏导置零求解最优参数集。但不幸的是 $G_{\theta}(y)$ 和 $F (y)$ 都是混合高斯模型，这个过程没有闭式解，直接求最优解的方法行不通。怎么办？
突破点1：
两个混合高斯的KL没有闭式，但两个高斯的KL却是有闭式形式的：
设两个高斯分布分别为 $N_1(\mu_1,\Sigma_1)$ 和 $\N_2(\mu_2,\Sigma_2)$ ，则它们的KL距离为：
$KL(N_1||N_2) = \frac 12 \left( \log\frac {|\Sigma_2|}{|\Sigma_1|}+Tr(\Sigma_2^{-1}\Sigma_1)+(\mu_1-\mu_2)^T(\Sigma_2)^{-1}(\mu_1-\mu_2)+d\right)$
证明：
d维高斯分布：
$N(x|u,\Sigma ) = {1 \over { { {(2\pi )}^{n/2}}{ {\left| \Sigma \right|}^{1/2}}}}\exp \{ - {1 \over 2}{(x - u)^T}{\Sigma ^{ - 1}}(x - u)\}$