FisherVector编码的来龙去脉

最新推荐文章于 2024-08-19 16:43:37 发布

虎妞C

最新推荐文章于 2024-08-19 16:43:37 发布

阅读量4.9k

点赞数 5

分类专栏：机器学习文章标签：算法编码机器视觉

本文链接：https://blog.csdn.net/shanyicheng1111/article/details/76978029

版权

本文深入探讨FisherVector编码在动作识别中的作用，对比BOW编码，阐述FisherVector如何通过GMM参数估计和编码增强特征表达能力。FisherVector编码涉及对GMM模型参数的梯度计算，捕获数据分布的结构信息，从而提高识别效果。

摘要由CSDN通过智能技术生成

最近在研究动作识别（Action Recognize）领域的论文和方法。在视频动作识别领域，深度学习未进入前，传统方法最好的是iDT.

IDT采用FisherVector编码的方式比ＢＯＦ（Bog of Features）提升了２％－１０％．

ＢＯＦ的编码方式，最终的视频特征维度是CodeBook的size大小。原理如图：）丑到不忍直视...

FiserVector编码方式，由两部分组成

首先是由样本分布估计ＧＭＭ（高斯混合模型）参数，

然后用ＧＭＭ模型对视频原始的iDT特征进行描述（编码）。

所以不管是ＢＯＦ还是ＦｉｓｈｅｒＶｅｃｔｏｒ都是相对于Codebook的一种描述。

GMM算法

GMM ，Gaussian Mixture Model，顾名思义，就是说该算法由多个高斯模型线性叠加 混合而成。GMM算法描述的是每一维数据的本身存在的一种分布，如果component足够多的话，GMM可以逼近任意一种概率密度分布。

我们知道，单个高斯模型的参数为均值和方差。

ＧＭＭ是一种聚类算法，Ｋ代表用多少个高斯模型去描述数据分布。也就是说每个 GMM 由Ｋ个Gaussian分布组成，每个Gaussian称为一个“Component”，这些 Component 线性加成在一起就组成了 GMM 的概率密度函数：

根据数据来推算概率密度通常被称作 density estimation ，特别地，当我们在已知（或假定）了概率密度函数的形式，而要估计其中的参数的过程被称作“参数估计”。 $\pi_k$ 表示第k个高斯模型的权重， $\mu_k$ 是第k个高斯模型的均值。 $\Sigma_k$ 是第k个高斯模型的方差。

在 GMM 中，我们就需要确定 $\pi_k$ 、 $\mu_k$ 和 $\Sigma_k$ 这些参数。找到这样一组参数，它所确定的概率分布生成这些给定的数据点的概率最大，而这个概率实际上就等于 $\prod_{i=1}^N p(x_i)$ ，我们把这个乘积称作似然函数 (Likelihood Function)。通常单个点的概率都很小，许多很小的数字相乘起来在计算机里很容易造成浮点数下溢，因此我们通常会对其取对数，把乘积变成加和 $\sum_{i=1}^N \log p(x_i)$ ，得到 log-likelihood function 。接下来我们只要将这个函数最大化，通常采用ＥＭ算法。