From Gaussian Mixture Model To Fisher Vector

最新推荐文章于 2021-09-15 16:25:19 发布

兔龟

最新推荐文章于 2021-09-15 16:25:19 发布

阅读量305

点赞数

分类专栏：机器学习文章标签：模型

本文链接：https://blog.csdn.net/qq_17213753/article/details/78544218

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

introduction

本文首先引入Gaussian Mixture Model，然后介绍其具体应用——Fisher Vector。

construction

考虑用隐藏变量 $Z$ 代表不同的高斯分布(比如 $z_j = 1$ 是第 $j$ 个高斯分布)，而显式变量 $X$ 服从于这些分布的某种叠加。设对于某个高斯分布有 $p(z_j = 1) = \omega_j,j = 1,\cdots,K$ 且 $\sum\limits_{j=1}^K \omega_j = 1$ ，则关于 $Z$ 的边缘分布可以表示为 $p(Z) = \prod\limits_{j=1}^K \omega_j^{z_j}$ ，同理关于 $X$ 的条件分布可以表示为 $p(X|Z) = \prod\limits_{j=1}^K \mathcal{N}(X|\mu_j,\Sigma_j)^{z_j}$ 。

由上面两个式子可得关于 $X$ 的边缘分布为 $p(X) = \sum\limits_Z p(X|Z)p(Z) = \sum\limits_{j=1}^K \omega_j\mathcal{N}(X|\mu_j,\Sigma_j)$ ，这意味着此分布中的每一个样本 $x$ 都归属于某一个高斯分布 $z$ 。

另外，我们定义

γ (z i) \equiv p (z i = 1 | X) = p ( X | z i = 1 ) p ( z i = 1 ) \sum j = 1 K p ( X | z j = 1 ) p ( z j = 1 ) = ω i N ( X | μ i , Σ i ) \sum j = 1 K ω j N ( X | μ j , Σ j )

$\gamma(z_i) \equiv p(z_i = 1|X) = \frac{p(X|z_i = 1)p(z_i = 1)}{\sum\limits_{j=1}^K p(X|z_j = 1)p(z_j = 1)} = \frac{\omega_i\mathcal{N}(X|\mu_i,\Sigma_i)}{\sum\limits_{j=1}^K \omega_j\mathcal{N}(X|\mu_j,\Sigma_j)}$ 那么

ωi $\omega_i$ 就是

zi=1 $z_i = 1$ 这一事件的先验概率，而

γ(zi) $\gamma(z_i)$ 就是观测到

X={x1,⋯,xN} $X = \{x_1,\cdots,x_N\}$ 后

zi=1 $z_i = 1$ 这一事件的后验概率。

而对于单个样本有

γ t (z i) \equiv p (z i = 1 | x t) = p ( x t | z i = 1 ) p ( z i = 1 ) \sum j = 1 K p ( x t | z j = 1 ) p ( z j = 1 ) = ω i N ( x t | μ i , Σ i ) \sum j = 1 K ω j N ( x t | μ j , Σ j )

$\gamma_t(z_i) \equiv p(z_i = 1|x_t) = \frac{p(x_t|z_i = 1)p(z_i = 1)}{\sum\limits_{j=1}^K p(x_t|z_j = 1)p(z_j = 1)} = \frac{\omega_i\mathcal{N}(x_t|\mu_i,\Sigma_i)}{\sum\limits_{j=1}^K \omega_j\mathcal{N}(x_t|\mu_j,\Sigma_j)}$ 代表该点归属于

zi $z_i$ 类的概率，称为样本的权责(responsibility)。令

Ni=∑t=1Nγt(zi) $N_i = \sum\limits_{t = 1}^N\gamma_t(z_i)$ ，可以认为这是被分配到第

zi $z_i$ 个高斯聚类的有效点数。

derivation

假设随机变量 $X = \{x_t\},t = 1 \cdots N$ 是独立同分布的，其中 $x_t$ 为 $d$ 维向量、 $N$ 为样本个数，由最大似然估计有 $\mathcal{L}(X|\lambda) = \sum\limits_{t = 1}^N \log p(x_t|\lambda)$ 。

现在用混合高斯模型(GMM)来近似这一分布

p (X) = \sum j = 1 K ω j N (X | μ j, Σ j), \sum j = 1 K ω i = 1

$p(X) = \sum\limits_{j=1}^K \omega_j\mathcal{N}(X|\mu_j,\Sigma_j),\sum\limits_{j=1}^K \omega_i = 1$ 代入上式有

L(X|λ)=∑t=1Nlog[∑j=1KωjN(xt|μj,Σj)] $\mathcal{L}(X|\lambda) = \sum\limits_{t = 1}^N \log [\sum\limits_{j=1}^K \omega_j\mathcal{N}(x_t|\mu_j,\Sigma_j)]$ ，利用拉格朗日乘子法可得到

ω $\omega$ 确定时

μ,Σ $\mu,\Sigma$ 的最大似然估计。

易求得 $\frac{\partial\mathcal{L}}{\partial\mu_i} = \sum\limits_{t = 1}^N \gamma_t(z_i) \Sigma_i^{-1}(x_t-\mu_i)$ ，假设协方差矩阵非奇异，令偏导数为零有 $\mu_i = \frac{1}{N_i} \sum\limits_{t = 1}^N\gamma_t(z_i)x_t$ 。

同样令 $\frac{\partial\mathcal{L}}{\partial\Sigma_i} = 0$ 有 $\Sigma_i = \frac{1}{N_i}\sum\limits_{t = 1}^N\gamma_t(z_i)(x_t-\mu_i)(x_t-\mu_i)^T$ 。此形式与单变量高斯分布的方差估计类似，只是每个样本点乘了一个先验概率作为权重。

设 $\mathcal{F} = \mathcal{L}(X|\lambda) + \beta(\sum\limits_{i=1}^K\omega_i - 1)$ ，由 $\frac{\partial\mathcal{F}}{\partial{\omega_i}}=0$ ，得 $\sum\limits_{t = 1}^N \frac{p_i(x_t|\lambda_i)}{\sum\limits_{j=1}^K \omega_j p_j(x_t|\lambda_j)}+\beta=0$ 。两边同乘 $\sum\limits_{i=1}^K \omega_i = 1$ ，可得 $\beta = -N$ ；两边同乘 $\omega_i$ 并令 $\beta = -N$ ，易得 $\omega_i = \frac{N_i}{N}$ 。

综上所述，可以得到关于 $X$ 分布全部参数的估计 $\lambda = \{\omega_i,\mu_i,\Sigma_i\},i = 1,\cdots,K$ 。将该模型代入EM算法的框架中，注意到 $q(Z) = p(Z),p(Z|X,\theta) = \gamma(Z)$ ，我们可以分别固定 $\omega$ 和 $\mu,\Sigma$ ，将E和M步骤的反复执行，以达到全部参数的最大似然估计。

具体流程：

选择初始参数 $\lambda_0$
E步骤：令 $p(Z) = \gamma(Z)$ ，即 $ω i = γ (z i) = ω i N ( X | μ i , Σ i ) \sum j = 1 K ω j N ( X | μ j , Σ j ), i = 1, \dots, K$ $\omega_i = \gamma(z_i) = \frac{\omega_i\mathcal{N}(X|\mu_i,\Sigma_i)}{\sum\limits_{j=1}^K \omega_j\mathcal{N}(X|\mu_j,\Sigma_j)},i = 1,\cdots,K$
M步骤：求 $\lambda_{new} = \arg\max\limits_\theta\mathcal{L}(X|\lambda_{old})$ ，即 $μ i = 1 N i \sum t = 1 N γ t (z i) x t, Σ i = 1 N i \sum t = 1 N γ t (z i) (x t - μ i) (x t - μ i) T, i = 1, \dots, K$ $\mu_i = \frac{1}{N_i} \sum\limits_{t = 1}^N\gamma_t(z_i)x_t,\Sigma_i = \frac{1}{N_i}\sum\limits_{t = 1}^N\gamma_t(z_i)(x_t-\mu_i)(x_t-\mu_i)^T,i = 1,\cdots,K$
观察 $\mathcal{L}(X|\lambda)$ 是否收敛

其过程类似于K-means算法，不同的是对数据有先验的假设——认为它们属于一个混合高斯模型。另外它相比K-means算法需要更多的计算量和更长的迭代周期来达到收敛，因此通常先利用K-means算法找到合适的初始值 $\lambda_0$ ，然后再进行EM操作。

application

模式识别方法主要分为两类，一类是生成式方法（如GMM等），主要反映同类数据之间的相似程度，可以处理长度不一的输入数据；一类是判别式方法（如SVM等），主要反映异类数据之间的差异程度，不能处理长度不一的数据但是分类效果较好。Fisher Vector想要结合二者的优势，将生成式的模型用于判别式分类器中。

假设对于一幅图片的多个 $D$ 维同类描述子(SIFT、iDT等)是独立同分布的，可以用一个有对角协方差阵的 $K$ 维混合高斯模型(probabilistic visual-vocabulary)来进行拟合，即

p (X) = \sum j = 1 K ω j N (X | μ j, Σ j)

$p(X) = \sum\limits_{j=1}^K \omega_j\mathcal{N}(X|\mu_j,\Sigma_j)$
在线下通过大量训练样本采用EM算法得到其参数的最大似然估计。为了使关于

ω $\omega$ 的评价函数的区分度更大，我们引入其softmax形式

ω i = e α i \sum j = 1 K e a j

$\omega_i = \frac{e^{\alpha_i}}{\sum\limits_{j=1}^K e^{a_j}}$ 然后求每一个描述子关于每一个子分布的评价函数，最终得到

(1+2D)K $(1+2D)K$ 维的评价矩阵，其元素为

\partial log p ( x t ) \partial α i \partial log p ( x t ) \partial μ i \partial log p ( x t ) \partial Σ i = γ t (z i) - ω i = γ t (z i) (x t - μ i σ 2 i) = γ t (z i) [( x t - μ k ) 2 - σ 2 k σ 3 k]

$\begin{align}\frac{\partial\log p(x_t)}{\partial\alpha_i} &= \gamma_t(z_i) - \omega_i\\ \frac{\partial\log p(x_t)}{\partial\mu_i} &= \gamma_t(z_i) (\frac{x_t-\mu_i}{\sigma_i^2})\\ \frac{\partial\log p(x_t)}{\partial\Sigma_i} &= \gamma_t(z_i)[\frac{(x_t-\mu_k)^2-\sigma_k^2}{\sigma_k^3}]\end{align}$

如果 $K$ 的值越大，模型与原始分布就越接近，替代效果就越好，当然矩阵的维数也越高——可以将此矩阵作为分类依据，因为它可以看作是图片的一种表达形式，并且不同图片得到的矩阵内容会不一样。

注：这里的训练模型和计算评价的过程是分开的；如果假定对于大容量样本的一系列不同类描述子(随机变量)两两不相关，则协方差矩阵退化为对角阵即 $\Sigma_k = \sigma_k^2$ ，这将有助于简化评价函数的表达式。