Deep Image Homography Estimation(基于深度学习的图像单应性估计)

主要工作

1.提出了一个新的VGG风格的[17]网络用于单应性估计任务。我们展示了如何使用4点参数化[2]来获得一个良好的深度估计问题。
2.分享了使用现有实际图像数据集(如MS-COCO数据集)创建一个看似无限的(IA; IB; HAB)训练三元组数据集的方法。
3.提出了将单应性估计问题作为分类的另一种形式,它产生一个单应性分布,并可用于确定估计的单应性的置信度。

引言

传统的单应性估计由两部分组成:角点估计和单应性计算。
通过引入大量过完备的角点实现鲁棒性,通过RANSAC或平方损失函数实现鲁棒性,由于角点不如人造线性特征那样可靠,因此在特征检测步骤加入了线特征和更复杂的几何形状。本文实现了一个算法, 只返回图像之间的单应性,没有角点特征等。

要解决的问题

解决办法

知识来源

单应性Homograph估计:从传统算法到深度学习-知乎

摘要

我们的前馈网络有10层,以两张堆叠的灰度图像作为输入,并产生8个自由度的同形图,可用于将像素从第一张图像映射到第二张图像。我们为HomographyNet提出了两种卷积神经网络结构:一种是直接估计实值同质参数的回归网络,另一种是产生量子化同质分布的分类网络。我们使用一个4点单应性参数化,将一个图像的四个角映射到第二个图像。我们的网络以端到端方式使用扭曲的MS-COCO图像进行训练。我们的方法不需要单独的局部特征检测和转换估计阶段。将我们的深度模型与基于ORB特征的传统单应性估计器进行了比较,并强调了HomographyNet优于传统技术的场景。我们还描述了由深度单应性估计提供支持的各种应用,从而展示了深度学习方法的灵活性。

网络结构

本文的网络结构

知识点

四点参数化表示单应性矩阵

单应性矩阵中,子矩阵[H11,H12;H21,H22]表示单应性中的旋转项,向量[H13,H23]表示平移偏移量。

四点参数化表示

将四个点的位移转化为单应性变换矩阵,可以使用DLT(直接线性变换),也可以使用OpenCV中的getPerspectiveTransform()函数。
OpenCV透视变换:GetPerspectiveTransform、warpPerspective函数的使用-CSDN博客
getPerspectiveTransform()函数返回的是3*3的单应性矩阵。
warpPerspective()同各个单应性矩阵将变换应用到一个图像上。

ORB(Oriented FAST and rotated BRIEF)描述符

特征检测之ORB算法-CSDN
相同特征点之间的联系就是描述符。描述符大致一致,就是相同的点。

  1. 特征提取
    ORB首先使用FAST算法查找关键点。FAST(Features from Accelerated Segment Test)是一种快速的角点检测器,用于寻找图像中的关键点。用于特征提取但不涉及特征描述,FAST算法通过与圆周像素的比较结果判别特征点,计算速度快、可重复性高,适合实时视频的处理。

    接下来,ORB应用Harris角测度在这些关键点中找到前N个点。
    ORB还使用金字塔生成多尺度特征,以增强尺度不变性。

  2. 特征描述
    ORB使用了BRIEF算法来计算描述符。BRIEF(Binary Robust Independent Elementary Features)是一种二进制的描述子,计算和匹配速度都非常快。

    BRIEF描述子是一个128位的二进制向量,用于表示关键点周围的强度模式。
    该向量只包含1和0,根据特定关键点和其周围像素区域而变化。这些特征向量可以用来识别图像中的对象。建立特征描述符的速度快,占用内存低,提高了特征匹配的效率,是一种高效的特征描述方法,对光照、模糊、和透视变换具有较强的鲁棒性。

  3. 旋转不变性改进
    为了增强旋转不变性,ORB为每个关键点分配一个方向。这个方向取决于该关键点周围的灰度变化情况。
    ORB还使用改进后的BRIEF版本(rBRIEF),称为Rotation-Aware BRIEF。它可以在朝着任何角度旋转的图像中检测到相同的关键点

  4. 应用
    近年来,传统图像算法中的ORB(Oriented Fast and Rotated BRIEF)算法有一些令人兴奋的突破和新进展。让我们深入了解一下:
    BEBLID(Boosted Efficient Binary Local Image Descriptor):这是OpenCV 4.5.1中引入的新描述符,对ORB进行了改进。它在提高图像匹配精度的同时,减少了执行时间。只需将ORB描述符替换为BEBLID,就可以将两个图像的匹配结果提高14%。这对于需要局部特征匹配的高级任务(如姿态估计和深度估计中的视差图计算)产生了很大影响.
    旋转不变性和尺度不变性:ORB结合了FAST特征检测和BRIEF特征描述,并进行了许多修改以增强性能。它具有速度快、旋转不变性和一定尺度不变性的优点。由于没有专利限制,ORB广泛应用于替代SIFT和SURF等算法。

单应性估计的数据生成:

通过对大型数据集使用随机投影变换来生成大量的编辑训练样例。
步骤:

  1. 在较大的图像I上的位置p,裁剪出一个补丁Ip(避开边界,避免后续产生伪影)。

  2. 在补丁Ip的四个顶点的左边,在[-x,x]范围内进行随机扰动,然后对四对点的对应关系导出单应性矩阵HAB。

  3. 将单应性矩阵的逆矩阵HAB-1应用于大图像,产生图像I0,

  4. 从I0的p处裁剪出补丁I0p,将两个补丁输入到网络,将HAB的四点参数化作为groundtruth的训练标签。
    单应性估计的数据生成

    单应性估计的数据生成
    

卷积神经网络模型

我们的网络使用3x3大小的卷积块,采用批归一化和ReLU激活函数,并且在架构上与牛津大学的VGG Net非常相似(见图1)。这两个网络接收一个大小为128x128x2的双通道灰度图像作为输入。换句话说,通过单应性关系相关的两个输入图像,按通道堆叠,并输入到网络中。我们使用了8个卷积层,在每两个卷积层之后都有一个最大池化层(2x2大小,步长为2)。这8个卷积层每层的滤波器数量如下:64,64,64,64,128,128,128,128。卷积层之后是两个全连接层,其中第一个全连接层有1024个单位。在最终的卷积层和第一个全连接层之后,应用了0.5概率的Dropout。我们的两个网络在最后一层之前共享相同的架构,而第一个网络产生实值输出,第二个网络产生离散数值(见图4)

回归网络和分类网络的模型图

回归网络和分类网络的模型图

由于 HomographyNets 需要一个固定尺寸的 128x128x2 输入,所以来自 Warped MS-COCO 14 测试集的图像对会在输入网络之前从 256x256x2 调整大小为 128x128x2。网络输出的四点参数化单应性矩阵会乘以二倍的因子以进行补偿。在评估 Classification HomographyNet 时,会选择具有最高置信度的角点位移。

实验结果如图5所示。我们报告了每种方法的平均角点误差(Mean Average Corner Error)。为了衡量这个指标,首先计算了ground truth角点位置和估计角点位置之间的L2距离。误差是对图像的四个角点进行平均,并在整个测试集上计算平均值。尽管回归网络表现最好,但分类网络可以生成置信度,并以有意义的方式对结果进行视觉调试。在某些应用中,这种确定性度量可能至关重要。

单应性估计比较

单应性估计比较

我们在图7中可视化了单应性估计结果。第一列中的蓝色正方形通过从第三节中描述的过程生成的随机单应性映射为第二列中的蓝色四边形。绿色四边形是估计得到的单应性映射。蓝色和绿色四边形越接近对齐,表示结果越好。红色线显示了整个图像区域上 ORB 特征的最佳匹配。第三列和第四列展示了类似的可视化效果,只是使用了深度单应性估计器。
传统单应性估计vs深度单应性估计

传统单应性估计vs深度单应性估计

应用

通过将单应性估计问题作为机器学习问题进行建模,可以构建特定应用的单应性估计引擎。例如,一个机器人通过单应性估计在室内工厂地板上进行平面SLAM导航,可以仅使用从机器人图像传感器捕获的室内工厂图像训练。虽然可以优化诸如ORB等特征检测器以适应特定环境,但这并不直接。使用ConvNet可以以类似的方式解决与环境和传感器相关的噪声、运动模糊和遮挡等问题,这些问题可能会限制单应性估计算法的能力。其他经典的计算机视觉任务,如图像拼接(如[19]中所示)和无标记相机跟踪系统等,也可以采用类似的方法处理。

结论

在这篇论文中,我们探讨了一个最基本的计算机视觉估计任务——单应性估计是否可以作为一个学习问题来解决。我们提出了两种能够在这个任务上表现良好的卷积神经网络架构。我们的端到端训练流程包含了两个额外的见解:使用4个角点参数化单应性,使参数化坐标在相同的尺度上操作,并使用大规模真实图像数据集合,通过合成创建一个看似无限大小的单应性估计训练集。

代码地址

Deep homograph estimation-pytorch实现

  • 13
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Homography估计是一种计算机视觉技术,用于在两个平面之间进行几何变换。它可以用于图像配准、图像拼接、虚拟现实等应用中。Homography估计的目标是找到一个3x3的矩阵,将一个平面上的点映射到另一个平面上的点。这个矩阵可以通过多种方法来估计,包括最小二乘法、RANSAC等。 ### 回答2: Homography estimation是一种计算机视觉技术,指的是在图像处理中,通过计算两幅图像之间的变换关系,来实现不同图像之间的几何转换。这种技术可以应用于很多领域,包括但不限于机器人视觉、图像配准、增强现实、虚拟现实和数字图像处理等。 在homography estimation中,我们需要寻找两幅图像之间的变换矩阵。这个变换矩阵被称为幂律映射,可以将一幅图像的特征点集投影到另一幅图像的对应点集,从而实现两幅图像之间的几何变换。其中特征点可以是关键点、角点,也可以是一些其他算法提取出的特征点等。 常见的homography estimation算法有RANSAC和最小二乘法等。RANSAC算法是一种假设-验证的方法,它随机选择几个特征点,通过估计变换矩阵来验证这些点是否符合变换矩阵的假设。最小二乘法是一种基于矩阵代数的方法,通过最小化特征点之间距离的平方和来计算变换矩阵。 homography estimation的一个主要应用是图像配准。在医学影像、航拍影像、卫星影像等领域,需要将多幅图像进行配准,以实现更准确的测量和分析。homography estimation可以帮助我们计算不同图像之间的几何变换关系,从而实现图像的精确配准。 总之,homography estimation是一种重要的计算机视觉技术,它为图像处理和计算机视觉领域带来了很多便利和挑战。未来,随着人工智能和机器学习技术的不断发展,homography estimation将会得到更广泛的应用和深入的研究。 ### 回答3: homography estimation是指在计算机视觉中,通过图像对之间的空间变换关系来估计两个图像之间的投影映射。在计算机视觉领域中,对于单个图像来说,可以通过特征点的匹配关系来建立基础矩阵来描述两个图像之间的外参关系,而对于一组图像来说,则需要使用homography矩阵来描述它们之间的内参数和外参数关系。 homography estimation通常需要使用RANSAC算法来进行随机采样和模型拟合的过程,以确保对噪声和异常点有较好的鲁棒性和准确性。homography estimation主要应用于图像拼接、三维重建、目标跟踪、相机标定等领域,其优点在于适用于对于场景有较大的姿态变化、平面或近似平面场景、易于感知整个场景的视点调整等场景。同时,homography estimation也有其局限性,比如对于物体的旋转、缩放、形状变化等更为复杂的情况,其表现可能并不优秀。 总体来说,homography estimation可以为计算机视觉领域提供一种有效的图像对齐和重建的方法,有着广泛的应用场景和潜在的研究价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值