论文阅读 Visual Categorization with Bags of Keypoints

简介:

We are thus confronted with the problem of generic visual categorization.
该文致力于解决一般性的视觉分类问题。解决方案应该足够一般化,可以用来同时处理多种对象分类问题,并且很容易扩展到其它类别上去。在计算机视觉中,由于局部descriptors对部分遮挡、杂乱是鲁棒的,所以可以很好地用来解决匹配和分类问题。通常情况下,这样的局部descriptors是repeatable。这里的repeatable指的是如果同一物体的两个示例间存在变换,则对应点周围的descriptors输出值是一样的。

A bag of keypoints corresponds to a histogram of the number of occurrences of particular image patterns in a given image. The main advantages of the method are its simplicity, its computational efficiency and its invariance to affine transformations, as well as occlusion, lighting and intra-class variations.
bag of keypoints对应于一个直方图,这个直方图由给定的图像中出现的特定图像模式次数组成。它的优势在于它的简单,计算高效,对于放射变换、occlusion(遮挡?)、光照、类内变化保持不变性。

在分类问题上,涉及到分类精度和计算时间的权衡问题。实际中中等大小的簇较为合适。在簇数目的选取上,由于我们并不关心特征分布的正确聚类,而是对象的正确分类,所以人为设置K的数量,选取分类效果好的。

流程:

The main steps of our method are:

1.Detection and description of image patches

检测和描述图像块,得到descriptors。
2.Assigning patch descriptors to a set of predetermined clusters (avocabulary) with a vector quantization algorithm

将新图像的descriptors分配到第一步中得到的簇中
3.Constructing abag of keypoints, which counts the number of patches assigned to each cluster

构建bag of keypoints。bag of keypoints是一个特征向量,每一位对应一个keypoints,为图像中的descriptors分配到该keypoints的次数。
4.Applying a multi-class classifier, treating the bag of keypoints as the feature vector, and thus determine which category or categories to assign to the image
分类


Therefore the steps involved in training the system allow consideration of multiple possible vocabularies:

词汇表实际上是簇的中心组成的集合,由于聚类的方法和数目不同,可能会有多个词汇表,选取经验上分类能力最好的词汇表。
1.Detection and description of image patches for a set of labeled training images

使用the Harris affine detector【21】找到椭圆形的仿射区域,将其映射成一个圆形区域(规范化),提取该区域的SIFT特征,即一个128维的特征向量。用一张图像中的多个仿射区域对应的SIFT特征向量作为该图像的descriptors。

2.Constructing a set of vocabularies: each is a set of cluster centres, with respect to which descriptors are vector quantized.
由于第一步得到的descriptors数量太多,计算太贵,所以使用聚类算法将其聚类,选取类中心作为descriptors。该文中采用的是K-Means聚类算法。该步骤中的descriptors应该少到对于分类任务无关的变化保持不变,如噪声、类内变化等,丰富到在类别层次上保证足够的信息可以用来分类。将量化的特征向量称为keypoints(簇中心)。所有的簇中心构成词汇表。
3.Extracting bags of keypoints for these vocabularies
构建bag of keypoints。bag of keypoints是一个特征向量,每一位对应一个keypoints,为图像中的descriptors分配到该keypoints的次数。
4.Training multi-class classifiers using the bags of keypoints as feature vectors
使用第三步得到的特征向量训练多类分类器。
5.Selecting the vocabulary and classifier giving the best overall classification accuracy.
由于词汇表并不是唯一的,选择分类效果最好的词汇表

缺陷:
1.三维结构的特征不能很好地被仿射变换抓住
2.增加特征不变性会造成描述性信息的损失
      




  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值