《Fisher Kernels on Visual Vocabularies for Image Categorization》学习笔记

本文介绍了Fisher核在图像分类中的应用,特别是在视觉词袋模型上的使用。通过高斯混合模型(GMM)表示图像底层特征,Fisher核提供了一种有效的图像表示方法,克服了传统视觉词袋的局限。实验表明,这种方法在图像分类任务中表现出良好的性能,同时在训练和测试阶段计算成本较低,适用于不同数据集。
摘要由CSDN通过智能技术生成

论文原文:来自2007年的CVPR   http://www.cvpapers.com/cvpr2007.html

Fisher Kernels on Visual Vocabularies for Image Categorization
本文学习笔记是自己的理解,有不对的地方还望大家批评指出,共同学习,谢谢!!!

费舍尔核的视觉词袋图像分类

摘要

在模式识别领域,Fisher核可以有效的结合有生产力和识别力的方法的优点。Fisher核用源于生产概率模型的梯度向量去表示图像特征,随后用分类器处理这些有识别力的特征表示。我们提出在图像分类中应用Fisher核:输入信号是图像并且把视觉词袋作为潜在生产模型——高斯混合模型(表示图像中底层特征的近似分布)。我们可以把Fisher核看作是视觉特征包模型的扩展。本文方法在两个挑战性数据集:an in-house database of19 object/scene
categories and the recently released VOC 2006 database中有很好的效果。而且本文方法在训练阶段和测试阶段计算开销都不大,并且在一类数据集中训练得到的词袋可以应用在其他数据集而不会降低分类识别率。

1.介绍

图像分类是一种按图像语义内容给图像分配一个或多个类标的分类方法,这是一个具有挑战的任务,因为图像分类处理的场景、对象在变化且视角、光照也都在变化。因此虽然过去几年已有很多处理方法,但图像分类仍是没能很好解决的问题。有几种方法主要在于模型化图像底层特征的分布而不考虑这些特征在图像中的相对或绝对位置。尽管这种方法相对简单朴素,但却显示出很好的分类识别率。

这种方法源于文本分类中的视觉词袋模型,被称为BOV模型。给定一个视觉词袋,BOV的思想就是利用每个视觉单词在图像中出现的频率直方图来表示这幅图像。再用分类器处理这些频率直方图表示的图像进行分类。视觉词袋的形成可通过聚类图像底层特征向量来形成,聚类方法有K-means、高斯混合模型及均值平移等

之前的方法可知,即使数据集中包含很少类别的图像,表现力好的视觉词袋也需要几百到上千个视觉关键词。因为直方图的计算花销直接依赖视觉词包的大小,所以一种降低计算开销的方法是去获得一种更加紧凑的视觉词袋。另一种降低计算开销的方法是把这些视觉词汇组织成树结构。然而,这两种方法有个问题是不具有普遍适应性:这样得到的词汇加入了他们认为的类别信息,不适应新的数据集。所以需要找到一种方法,当训练完视觉词汇后,如果再想加入其他类别数据集时,不用重新训练视觉词汇。

由于视觉词袋的两个看似矛盾的要求:普遍化和紧凑性,很多学者放弃了寻找独一无二的视觉词袋,转而提出对每一副图像给出一个很小的词袋。但这种方法不会降低计算开销。

为克服上面提到的问题(普遍化、紧凑性、计算开销小),提出在图像分类中应用Fisher核。Fisher核是一种集合了模式分类中生产力和识别力优势的有效框架。Fisher核的观点是用源于概率密度函数的梯度向量去描述一个信号,即模型化信号产生的过程,之后把这种方法表示的图像向量输入到分类器中进行处理。考虑到图像分类输入的信号是图像,我

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值