SIFT vs Dense-SIFT

最新推荐文章于 2021-03-17 19:51:49 发布

jiang1st

最新推荐文章于 2021-03-17 19:51:49 发布

阅读量1.6w

点赞数 4

分类专栏： Computer Vision 文章标签： sift 图像检索 cnn

本文链接：https://blog.csdn.net/jwh_bupt/article/details/40154933

版权

Computer Vision 专栏收录该内容

20 篇文章 4 订阅

订阅专栏

有个博友问SIFT和Dense-SIFT在应用上的区别。这个问题可以放大到Sparse feature和Dense feature的使用场景上（不然现在说Dense-SIFT估计没人鸟了）。之前自己也考虑过这个问题，今天不妨写出来。这些都是对基本问题的一些理解，后面的博客打算写点高级点的东西吧，这样显得自己逼格会高一些。

看过论文的人都会发现，图像识别问题大多用Dense-SIFT（当然现在也不用Dense-SIFT了，Deep Learning一统江湖。即使如此，CNN的输入也可以理解为一个Dense 特征----像素级的特征），而图像检索总是用SIFT（利用了检测子）。而参照[1]的实验结果，dense-SIFT在图像检索上的性能不如SIFT检测子的性能好。这个结论是合理的。这个原因可以从检索问题和识别问题本身进行讨论。

Dense-SIFT在非深度学习的模型中，常常是特征提取的第一步[2]。采样的点提取SIFT描述子后，经过码书投影，投影在同一个码字上的采样点都代表了一组描述子相似的点。不同的码字（相当于直方图的每一个bin）之间，采样点的区分能力是不一样的。我们以图1为例，bin2代表的是一块很平坦的区域，于是dense采样时，很多点产生的描述子都会投影在bin2上。而bin1，bin3，bin4分别代表一块特有的区域，仅仅在dense采样到自行车，大提琴和眼睛等部位时，才能够形成类似的描述子。换而言之，bin2的重要性最低，而其他码字的重要性都很高。

对于图像识别问题来说，由于有充足的训练样本（正负样本均充足）。通过对训练样本的学习，我们会学习一个分类器。以线性SVM为例，分类器的最终形式是:

$y=w^{T}x$

其中 $x=[x_{1},x_{2},...,x_{D}]$ 是输入图像的BOW向量， $w=[w_{1},w_{2},...,w_{D}]$ 是SVM需要学习的模型参数。在图1中，D=4。由于bin2的区分性较低（正样本和负样本在bin2上的值都会很相似），bin1，bin3，bin4的区分性较高（bin4一旦值大于0，就表示该测试样本极有可能是人脸，而bin1的值一旦大于0，就表示测试样本很有可能是自行车）。所以经过学习后SVM的参数可能是 $w=[1,0,1,1]$ 。这个w和IDF的效果是一样的——使区分性小的码字权重变低。只不过IDF是人工设计的，而SVM中的w是经过学习得到的。综上所述，图像识别问题之所以采用密集采样，是因为密集采样后的点，会通过训练后的分类器进行了进一步的筛选。所以，无需人工干预特征点的选取。

图1

而检索问题则不同了，大多数情况下我们并没有训练样本。因此，我们需要利用人的经验过滤区分性低的点（除此之外还引入了IDF进一步加权）。因此，大部分检索问题都利用了检测子，而不是密集采样。

总而言之，当研究目标是对同样的物体或者场景寻找对应关系（correspondence）时，Sparse SIFT更好。而研究目标是图像表示或者场景理解时，Dense SIFT更好，因为即使密集采样的区域不能够被准确匹配，这块区域也包含了表达图像内容的信息。

Sparse SIFT还有一个重要优点就是，输出的特征的结构是固定的（特征点数量稳定）。这对于spatial configuration的建模十分重要[3]。

顺便废话一句，CNN的卷积层的输出，可以作为一个新的Dense Feature，用来代替人工设计的Dense Feature如HOG map啦。

参考文献：

[1] C. G. M. Snoek, K. E. A. Van DeSande, D. Fontijne, A. Habibian, and M. Jain, “MediaMill at TRECVID 2013 :Searching Concepts , Objects , Instances and Events in Video 1 Task I : ConceptDetection,”2013.

[2] S. Lazebnik, C. Schmid, and J.Ponce, “Beyond Bags of Features: Spatial Pyramid Matching for RecognizingNatural Scene Categories,” CVPR, 2006.

[3] Tinne Tuytelaars, "Dense Interest Points", CVPR, 2010.

-------------

转载请注明出处：http://blog.csdn.net/jwh_bupt/article/details/40154933

http://jiangwh.weebly.com/