计算机视觉入门论文,论文阅读学习笔记--第七周--计算机视觉入门ing

这一周看了七篇论文,分别介绍了:两种仿射不变区域的提取算法,以用于存在较大差异的图像之间的匹配;近似求解最近邻的加速算法;用于自然图像类别识别的空间金字塔匹配算法;用于物体识别的形状匹配算法;六种常用仿射不变检测器的比较;为了得到更好的描述效果在分辨力和不变性之间描述符的自动学习折中方法;一种结合了形状信息及其空间特征的新的形状特征描述符。

一、关于阅读“Matching Widely Separated Views Based on Affine

Invariant Regions”

作者提出了俩种对存在较大变化的图像之间进行匹配的仿射不变区域的提取算法:1、基于紧邻角点的边进行仿射不变区域检测;2、基于强度的仿射不变区域检测。

提取仿射不变区域的第一步是锚点(定位点)的选择,这些点作为后续区域提取的种子点。在这些点的基础上,后续的操作就集中在这些点邻域的区域,而不再需要检测图像中的每一个像素,从而降低了问题的复杂度和计算时间。作者介绍了Harris角点和图像强度局部极值点这俩种可能的锚点的优缺点,并指出,哪一种点作为锚点效果最好也同样依赖于使用的区域检测算法,该算法是否可以充分利用所选择锚点种类的优势以及尽量减少其弊端的影响。

1、基于紧邻角点的边进行仿射不变区域检测。这种算法又可以分为基于紧邻角点的曲边和基于紧邻角点的直边俩种情况。因不能很确定的保证一个函数一定存在极值,在基于曲线的放射不变区域检测时,作者同时使用了多个函数以得到更多稳定的角点以及相应的检测区域,同时,对于检测区域,并不是以锚点为中心的,而是以锚点作为检测平行四边形区域的一个顶点,因锚点附近是深度不连续的。对于直线的情况,采用的不在是曲线情况下单一函数的极值点来确定定位点,而是用俩个函数进行组合,根据其交集来确定。

2、基于强度的仿射不变区域检测。首先得到强度函数的极值点,然后以极值点为射线的起点,得到大致水平的一组射线,这些射线均以极值点为起点且是360度包围极值点的。对每一个射线根据其对应的函数,检测射线上的极值点,将所有包围强度极值点的射线检测得到的极值点连接起来,可以得到一个包围该强度极值点的封闭区域,因这个区域是形状不规则的,根据该区域进行拟合,得到一个椭圆形区域,即作为了仿射不变区域,然后将椭圆形区域加倍,即作为最终的检测区域。

为取得更好的效果,作者考虑的一些其他问题:

虽然按照作者提出的算法得到的区域可以直接被应用,并且取得很好的效果,但是实验证明,对这些区域进行一下预处理可以取得更好的效果,在匹配之前,作者对这些区域进行归一化的预处理,然后对预处理之后的区域进行描述以及匹配操作。匹配的时候,是进行双向匹配,即俩个不同视角之间的双向匹配,双向匹配的结果一致的区域匹配才会被接受,同时用归一化的交叉相关对接受的匹配进行最后的检查,以决定是否真的接受某个区域匹配。

待匹配的图像之间可能存在大尺度的几何和光度的变化,会存在相当多的错误匹配,可以通过检查局部对应组合的一致性来进行错误匹配的检测以及拒绝,因在作者提出问题的情况下,错误匹配的数量可能相当多,甚至多于正确匹配的数量,因此简单的使用RANSAC可能不能得到想要的效果,因此做作者提出了俩种半局部约束:几何约束和光度约束,在使用RANSAC之前,先通过这俩种局部约束进行错误匹配的去除,然后对剩余的匹配进行处理,使用RANSAC进行最终的错误匹配的过滤,从而得到很好效果。

二、关于阅读“Fast Approximate Nearest Neighbors With Automatic

Algorithm Configuration”

作者介绍了几种最近邻搜索的方法:1、多随机KD树,这是KD树的改进版。KD树在每一层划分时,都是以该节点范围内各个点变化最大的维度上的值进行二分,以此类推,直至叶子节点;而随机KD树在每次划分时,是在各个点在若干个变化最大的维度中随机选择一个维度作为划分的维度,同时在搜索时,维护了一个优先队列,按照距离每个二分边界由近到远的顺序去搜索;根据所需精度固定一共需要搜索的叶子数目,只搜索这些数目的叶子节点。2、分层k均值树,作者对已有的分层k均值树的搜索算法做了改进。在进行搜索时,作者通过优先队列以对带搜索的点按优先级的先后顺序进行搜索,同时,也使用了固定搜索点数的限制以及时停止搜索。

对于近似最近邻搜索算法的判定,主要取决于数据结构(搜索树)的构建时间、查询时间以及空间消耗,作者提出了一种自动确定给定情况下最优的搜索算法以及其所需要参数的方法。对于最优搜索算法的选择,作者给出了结合以上三个主要影响因素的加权函数,可以根据具体的需要动态的调整各个因素的权值从而得到不同情况下最优算法的选择;对于参数的确定,先是在整个参数空间进行搜索,然后进行局部调整,最后使用下降的单纯形法在已有结果的基础上进一步进行搜索和调整。

三、关于阅读“Beyond Bags of Features : Spatial Pyramid Matching

for Recognizing Natural Scene Categories”

作者提出了一种基于近似全局几何对应的识别图像场景类别的方法。通过对图像进行越来越精确的子区域划分,然后计算每个子区域的局部特征直方图。在每个分辨率层次的匹配数目通过直方图相交函数给出,最终对各个层次的匹配数目求加权和,精细划分层次的匹配给以较高的权值。作者给出了原始金字塔匹配核的推导。虽然金字塔匹配可以实现俩个特征集合之间的精确匹配,但却忽略了其间的空间信息,因此,作者提出了一种在二维图像空间进行金字塔匹配的方法,同时在特征空间进行了聚类处理,并规定只有同类别的特征才可以进行匹配,改进了金字塔匹配的核。

四、关于阅读“Shape Matching and Object Recognition using Low

Distortion Correspondences”

作者提出了根据变形形状匹配的框架来实现识别的方法。变形形状匹配依赖于寻找特征点之间对应的算法,这个算法将对应问题建模为整数二次规划问题,其中的代价函数是匹配质量和几何变形对应的加权和,寻找对应即最小化代价函数,最小化代价函数可以被写作整数二次规划形式。因整数二次规划问题是NP复杂的,作者采用了近似的方法进行求解,先寻找线性边界问题的最小值,作为二次问题的近似解,然后通过局部梯度下降的方法来寻找局部最小分配。该对应算法在有异常点的情况依然可以正常处理,因此对于杂乱干扰以及遮挡的情况依然适用。在已知部分对应关系的条件下,估计一个调整变换(规则的薄板样条模型),可以得到俩个形状之间的稠密对应。关于上述算法的应用:通过最近邻框架来实现物体类别的识别(变形形状匹配的基础问题);实现模型物体与其背景的自动分离(对对应算法的应用)。

对于两幅图像,寻找其对应的步骤:从每幅图像中提取稀疏的有向边映射;基于高边能量局部的几何模糊描述计算其特征;基于特征相似和近似,寻找一幅图像中的每一个特征点到另一幅图像特征点的匹配;构建代价矩阵;近似求解二元二次最优化问题以得到对应关系,将得到的对应使用规则的薄板样条模型拓展到平滑的映射。

五、关于阅读“A Comparison of Affine Region

Detectors”

作者描述并且比较了六种仿射协变区域检测方法,分别是:Harris-Affine、Hessian-Affine

、MSER、基于边的区域检测器、基于强度极值的区域检测器、基于信息熵的区域检测器。

基于仿射规范化的检测器:Harris-Affine、Hessian-Affine。都是在尺度空间进行兴趣点的检测,都使用拉普拉斯函数进行尺度的选择,椭圆形的区域由像素强度梯度的二阶矩阵决定(二阶矩阵描述了点局部邻域的梯度分布情况);不同的是前者根据Harris检测器检测兴趣点(Harris检测器依据二阶矩阵),后者基于Hessian矩阵。

基于边的区域检测器:上周看过一篇也是关于检测和描述方法比较的论文,其中介绍了关于基于边的区域检测器,与在这篇论文中介绍的是相同的,是利用Harris角点和边信息来实现的,也同样将边分为直线和曲线俩种情况去处理。

基于强度极值的区域检测器:和上周看的比较论文中介绍的一样,通过一系列起于强度极值点的射线上函数的极值可以得到一个封闭但不规则的区域,然后根据这个区域拟合成一个最相似的椭圆形区域。

MSER(最稳定极值区域检测器):之前看过一篇关于MSER详细介绍的论文,这里和论文中叙述的在原理上是相同的。MSER是经过恰当的阈值化处理的图像中的连通部分,其中的极值区域既包括最大极值区域(亮的部分)也包括最小极值区域(暗的部分)。

显著性区域检测器:(之前也看过一篇关于显著性区域检测的论文)该检测器基于强度概率密度函数,首先对以每个像素点为中心的椭圆形区域内的概率密度函数的信息熵进行评估,由信息熵的极值来确定候选区域,然后对候选区域根据尺度间概率密度函数导数的大小进行排序,取前p个区域作为最终的显著性区域。

作者设计了不同检测器检测得到的对应区域之间在单应性映射下的重叠效果和图像匹配两个实验来对各个检测器的效果进行比较。

六、关于阅读“Learning The Discriminative Power-Invariance

Trade-off”

描述符的好坏对于视觉分类来说至关重要,其中,鉴定一个描述符是否足够好又取决于其在分辨能力和不变性之间的折中,作者提出了一种于根据实际问题和数据集自动进行二者折中的学习方法以及一种自动学习得到最优分类核的方法。

根据初始的若干个基础描述符以及相应的距离函数,得到对应的基础核矩阵,最优描述符的核矩阵是这些基础核矩阵线性组合,其对应的权重向量则为组合得到的最优描述符的折中程度。最优化的求解使用SVM框架以得到最好的分类效果,同时进行了规则化处理,作者给出的代价函数以及约束条件是在L1-SVM的基础上进行改进的。

七、关于阅读“Representing shape with a spatial pyramid

kernel”

作者介绍了根据图像所包含物体的类别对图像进行分类的方法,1、提出了一种新的形状特征描述符:PHOG(有向梯度直方图金字塔),将图像局部形状及其空间布局相结合,用这种描述符来进行图像的表示,以及用分类器进行图像分类;2、提出了结合视觉特征核以及形状特征核的空间金字塔核,因此,两幅图像之间的形状对应(相似性)可以被其描述符在核度量下的距离来确定;3、给出了由学习得到金字塔每层权重参数的方法,在由此确定的权重参数基础上可以很大程度上提高分类效果。

局部形状:用有向梯度直方图描述区域内边方向的分布,根据每个边在直方图表现中的强度来确定其贡献权重。

空间布局:对图像进行由粗到细的网格划分,然后对每一层计算该层中图像的有向梯度直方图对应的向量,最后的有向梯度直方图金字塔(PHOG)描述即为各个层中有向梯度直方图描述向量的拼接。不同层的HOG会被赋予不同的权值,然后根据距离函数进行相似性的比较。相比之前已有的使用固定或者某种公式确定的不同层权值的方法,作者提出了两种学习确定权值的方法可以得到较好的效果。

因单纯的形状或者视觉特征在某些情况下不能得到很好的效果,需要将二者结合,作者提出了结合形状核以及视觉特征核两种方法:可以直接对其进行加权线性组合,与已有的相同思想算法不同的是作者确定权重的方式是直接基于验证集进行,以得到最优化的权重值;也可以根据具体情况直接取二者的最大值。SVM分类器用得到的核进行图像的分类。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值