从CVPR2013看计算机视觉研究的三个趋势

最新推荐文章于 2024-03-25 14:37:48 发布

TreeFish2012

最新推荐文章于 2024-03-25 14:37:48 发布

阅读量646

点赞数

分类专栏：机器视觉模式识别

机器视觉模式识别专栏收录该内容

26 篇文章 0 订阅

订阅专栏

tombone‘s blog 最近一直在update关于CVPR2013的感受，今天，他在博客中分享了 [CVPR 2013] Three Trending Computer Vision Research Areas。

我没机会参加这样的盛会，但是通过浏览今年CVPR录用文章的列表，以及最近几年顶级会议文章的趋势，根据他总结的三个趋势，我也谈谈我的看法。

1) RGB-D 数据的分析

几年前的计算机视觉领域中，大部分关于目标检测，识别的工作还都是基于2维图像数据进行的，但是，人们越来越觉得，单纯的颜色数据具有很大的歧义性，尤其是在目标的边界附近，颜色相近的时候难以区分前景和背景。另外，遮挡对于目标跟踪，识别也造成了很大的挑战，如果没有深度信息，遮挡在很多时候是难以判断的。然而，随着Kinect的问世，低廉的售价让获取深度信息并与彩色图像配准变得很容易。这样，越来越多的研究就开始将中心放在具有深度信息的 2.5D数据上面。从2010年开始，美国的一些实验室例如CMU的RI，到处都可以见到用Kinect做实验的人，宾大的四旋翼飞行器也开始试着装上kinect来进行辅助。这两年，国内也有越来越多的人利用这一数据，进行重建，导航，识别等研究。

随着新一代kinect的即将问世，加上Leap motion等类似产品的发展，相信RGB-D数据分析将会是以后室内场景中计算机视觉研究的重心。

H. Jiang and J. Xiao. A Linear Approach to Matching Cuboids in RGBD Images. In CVPR 2013. [ pdf]

2) 中层patch的分析会是一个热点

在局部特征很难具有足够的描述力的情况下，中层特征的提取和分析就显得更加重要。在ECCV 2012年 CMU的 Saurabh Singh 提出了中层patch的想法，提取的patch包含更加丰富的信息，至少是目标部件级别的，而不是没有任何语义信息的局部描述。SIGGRAPH2012那篇注明的文章，“What makes Paris look like Paris?”。

Unsupervised Discovery of Mid-Level Discriminative PatchesSaurabh Singh, Abhinav Gupta, Alexei A. Efros. In ECCV, 2012.

Carl Doersch, Saurabh Singh, Abhinav Gupta, Josef Sivic, and Alexei A. Efros. What Makes Paris Look like Paris? In SIGGRAPH 2012. [pdf]

在今年的CVPR中，也有不少关于从场景中学习mid-level parts的文章

Blocks that Shout: Distinctive Parts for Scene Classification. Mayank Juneja, Andrea Vedaldi, CV Jawahar, Andrew Zisserman. In CVPR, 2013. [pdf]

Representing Videos using Mid-level Discriminative Patches. Arpit Jain, Abhinav Gupta, Mikel Rodriguez, Larry Davis. CVPR, 2013. [pdf]

Part Discovery from Partial Correspondence. Subhransu Maji, Gregory Shakhnarovich. In CVPR, 2013. [pdf]

3) 深度学习以及特征学习也在蓬勃上升时期

tombone是这么说的。ms Google的每一个人现在都在做深度学习。这到底能解决所有的视觉问题吗？很怀疑。但是，深度学习的兴起让每一个研究者都想参与其中。换句话说，如果你不知道 Geoff Hinton 是谁，你就out了。

对于这个问题，我觉得在慢慢具备海量数据处理能力的今天，深度学习确实是解决问题的一个很好的途径。但是，另一方面，我们也不能寄希望于一个万能的模型，如果有人想指望将训练图像扔进某个非常NB的分类器里面，就能得到自己想要的结果，那也是不现实的。计算机视觉中的很多困难我觉得不光是计算效能的问题，而且我们对其认识的还不够。一个视觉算法的效果好不好，不光取决于模型，更重要的是前端的特征。

因此，深度学习必须结合好的特征学习，才是解决问题的王道。