樊彬
中国科学院自动化研究所 模式识别国家重点实验室 (CASIA NLPR)
局部图像特征描述是计算机视觉的一个基本研究问题,在寻找图像中的对应点以及物体特征描述中有着重要的作用。它是许多方法的基础,因此也是目前视觉研究中的一个热点,每年在视觉领域的顶级会议 ICCV/CVPR/ECCV 上都有高质量的特征描述论文发表。同时它也有着广泛的应用,举例来说,在利用多幅二维图像进行三维重建、恢复场景三维结构的应用中,其基本出发点是要有一个可靠的图像对应点集合,而自动地建立图像之间点与点之间的可靠对应关系通常都依赖于一个优秀的局部图像特征描述子。又比如,在物体识别中,目前非常流行以及切实可行的方法之一是基于局部特征的,由于特征的局部性,使得物体识别可以处理遮挡、复杂背景等比较复杂的情况。
局部图像特征描述的核心问题是不变性(鲁棒性)和可区分性。由于使用局部图像特征描述子的时候,通常是为了鲁棒地处理各种图像变换的情况。因此,在构建 / 设计特征描述子的时候,不变性问题就是首先需要考虑的问题。在宽基线匹配中,需要考虑特征描述子对于视角变化的不变性、对尺度变化的不变性、对旋转变化的不变性等;在形状识别和物体检索中,需要考虑特征描述子对形状的不变性。
然而,特征描述子的可区分性的强弱往往和其不变性是矛盾的,也就是说,一个具有众多不变性的特征描述子,它区分局部图像内容的能力就稍弱;而如果一个非常容易区分不同局部图像内容的特征描述子,它的鲁棒性往往比较低。举个例子,假定我们需要对一个点周围固定大小的局部图像内容进行描述。如果我们直接将图像内容展开成一个列向量对其进行描述,那么只要局部图像内容发生了一点变化,就会使得它的特征描述子发生较大的变化,因此这样的特征描述方式很容易区分不同的局部图像内容,但是对于相同的局部图像内容发生旋转变化等情况,它同样会产生很大的差异,即不变性弱。
而另一方面,如果我们通过统计局部图像灰度直方图来进行特征描述,这种描述方式具有较强的不变性,对于局部图像内容发生旋转变化等情况比较鲁棒,但是区分能力较弱,例如无法区分两个灰度直方图相同但内容不同的局部图像块。
综上所述,一个优秀的特征描述子不仅应该具有很强不变性,还应该具有很强的可区分性。
在诸多的局部图像特征描述子中, SIFT ( Scale Invariant Feature Transform )是其中应用最广的,它在 1999 年首次提出,至 2004 年得到完善。 SIFT 的提出也是局部图像特征描述子研究领域一项里程碑式的工作。由于 SIFT 对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性,并且 SIFT 具有很强的可区分性,自它提出以来,很快在物体识别、宽基线图像匹配、三维重建、图像检索中得到了应用,局部图像特征描述子在计算机视觉领域内也得到了更加广泛的关注,涌现了一大批各具特色的局部图像特征描述子。
SURF ( Speeded Up Robust Features )是对 SIFT 的改进版本,它利用 Haar 小波来近似 SIFT 方法中的梯度操作,同时利用积分图技术进行快速计算, SURF 的速度是 SIFT 的 3-7 倍,大部分情况下它和 SIFT 的性能相当,因此它在很多应用中得到了应用,尤其是对运行时间要求高的场合。
DAISY 是面向稠密特征提取的可快速计算的局部图像特征描述子,它本质思想和 SIFT 是一样的:分块统计梯度方向直方图,不同的是, DAISY 在分块策略上进行了改进,利用高斯卷积来进行梯度方向直方图的分块汇聚,这样利用高斯卷积的可快速计算性就可以快速稠密地进行特征描述子的提取。比较巧合的是, DAISY 这种特征汇聚策略被一些研究者( Matthen Brown , Gang Hua , Simon Winder )通过机器学习的方法证明相对于其他几种特征汇聚策略(卡迪尔坐标下分块、极坐标下分块)是最优的。
ASIFT ( Affine SIFT )通过模拟所有成像视角下得到的图像进行特征匹配,可以很好地处理视角变化的情况,尤其是大视角变化下的图像匹配。
MROGH ( Multi-support Region Order-based Gradient Histogram )则是特征汇聚策略上寻求创新,之前的局部图像特征描述子,其特征汇聚策略都是基于邻域内点的几何位置的,而 MROGH 基于点的灰度序进行特征汇聚。
BRIEF ( Binary Robust Independent Element Feature )利用局部图像邻域内随机点对的灰度大小关系来建立局部图像特征描述子,得到的二值特征描述子不仅匹配速度快,而且存储要求内存低,因此手机应用中具有很好的应用前景。其实,利用邻域内点对的灰度大小关系进行特征描述这一思想在 SMD ( ECCV’08 )中就已经有了。
除了 BRIEF ,近两年还提出了许多二值特征描述子,例如 ORB 、 BRISK 、 FREAK 。上述这些特征描述子都是基于手动设计得到的,也有一些研究试图利用机器学习的方法,通过数据驱动得到想要的特征描述子。这类特征描述子包括 PCA-SIFT , Linear Discriminative Embedding , LDA-Hash 等。当然,除了提到的这些特征描述子之外,还有许多其他的特征描述子,在这就不再一一叙述了。
国际上研究局部图像特征描述子比较著名的学者有:
英国 Surrey 大学的 Mikolajzyk ,他在 INRIA 做博后的时候,在宽基线应用背景下,对 SIFT 、 Shape Context 、 PCA-SIFT 、不变矩等多种局部图像描述子的性能进行了评测,相关论文发表在 2005 年 PAMI 上,他提出来的评测方法至今仍是局部图像描述子研究领域中广泛采用的性能评测方法。
INRIA 的 C. Schmid ,她九十年代就开始研究局部图像描述方法了,是这个领域内的元老之一,不过这几年她的团队正在将重心转向大规模图像检索和行为识别等应用中。
比利时 Leuven 大学的 Tinne Tuytelaars ,她是著名的 SURF 描述子的提出者, SURF 相关的论文于 2011 年获得 CVIU 引用最多论文奖,她写了三篇局部图像特征描述相关的综述文章,分别是“ Local Invariant Feature Detectors: A Survey ”,“ Local Image Features ”和“ Wide baseline matching ”。
英国 Oxford 大学的 Andrea Valida ,他是 Vlfeat 的发起者和主要作者。 Vlfeat 是一个开源程序,其中包括了 SIFT 、 MSER ,被许多研究者广泛采用。 Vlfeat 目前正在逐渐实现其他常用的特征描述子。
瑞士 EPFL 的 Vincent Lepetit 和 Pascal Fua ,他们的团队主要致力于发展快速、高效的局部图像特征描述子,用于模板匹配、三维重建、虚拟现实等应用。他们的工作包括用于稠密立体匹配的 DAISY 特征描述子,基于 Random Trees 的模板匹配方法,基于 Random Ferns 的模板匹配方法。此外, LDA-Hash 、 BRIEF 、 D-BRIEF ( ECCV 2012 )也是他们的杰作。
中国科学院自动化研究所的吴福朝研究员,他在这方面也做了比较深入的研究,并提出了许多不错的局部图像特征提取和描述方法。这些名字都是我们在读论文的时候会经常看到的。
最近几年局部图像特征描述子的发展趋势是:快速、低存储。这两个趋势使得局部图像特征描述子可以在快速实时、大规模应用中发挥作用,而且有利于将许多应用做到手机上去进行开发,实实在在的将计算机视觉技术应用于我们周围的世界中。为了满足快速和低存储这两个需求,二值特征描述子得到了研究者的广泛关注,这两年 CVPR 和 ICCV 中关于局部图像特征描述子的文章,大部分都是这类的。相信它们在未来几年还会继续受到关注,期待出现一些深入大众生活中的成功应用。