Deep Homography Estimation for Dynamic Scenes 论文笔记

Introduction

单应矩阵估计方法(传统+deep learning)

在这里插入图片描述

本文的工作

在这里插入图片描述

auxiliary loss function: compares the dynamic mask from the ground-truth dynamics map that is estimated from the training data.

Related Work

1.Pixel-based approaches

直接搜索使得两张图片对齐误差最小的单应矩阵

已有的误差度量和参数搜索算法(层次估计、傅立叶对齐)能够使得这些方法强大高效。

适用情况: 对缺乏纹理的图像具有鲁棒性,但难以处理 较大运动

2.Feature-based approaches
  1. 使用算法(eg.SIFT and SURF)估计局部特征点
  2. 在两张图片间匹配特征点
  3. 对于一对匹配点,可基于 p 1 = H p 2 p_1=Hp_2 p1=Hp2 求解最小二乘问题来获得最佳单应矩阵

注意: 特征匹配时可能会产生错误,特征点可能会来自移动的对象,因此常使用RANSAC和Magsac等鲁棒估计算法来去除异常值。

适用情况: 该方法的性能取决于局部特征的检测和匹配,不太适用于模糊和缺乏纹理的图像

3.Deep learning approaches

在这里插入图片描述

以上方法 仅基于静态场景下取得成功,没有考虑动态场景

4.本文 multi-scale neural network 的改进
  1. 相较于之前的hierarchical neural network的工作,我们的method从输入图像的低分辨率版本开始,逐渐增加输入图像的大小,而非在每个阶段都以原始输入图像作为input,这使得我们的方法相对于大运动更加稳健。
  2. 相较于之前的Lucas_Kanade layer的工作,我们的method使用前一阶段估计的单应矩阵将输入图像预先对齐到下一阶段,以最小化全局运动。这有助于后期网络解决全局运动
  3. 加入a dynamics mask network来处理动态场景。<之前的neural network-based未考虑的>

Experiments

在这里插入图片描述

评估指标:the mean corner error

e c = 1 4 ∑ j = 1 4 ∣ ∣ c j − c j ^ ∣ ∣ 2 e_c=\frac{1}{4}\sum_{j=1}^{4}||c_j-\hat{c_j}||_2 ec=41j=14cjcj^2

其中, c j c_j cj c o r n e r   j corner\ j corner j 通过estimated homography变换得到的, c j ^ \hat{c_j} cj^ c o r n e r   j corner\ j corner j 通过 ground-truth homography得到的。

训练集的影响

我们分别在动态场景的静态版本和动态版本上训练了homography network

在这里插入图片描述

动态区域大小的影响

在这里插入图片描述

Discussions

Scale selection

An important hyper-parameter of our multi-scale neural network:number of scales

在这里插入图片描述

Real-World videos

在这里插入图片描述

  1. 我们使用合成数据集进行训练,并在NUS stabilization benchmark的video进行了测试
  2. 实验结果显示我们的网络可以很好的应用于真实视频,并且可以通过检查dynamics masks来识别动态内容
Parallx

视差的简单解释:把手指放在据眼睛较近的地方,分别用左右两只眼睛看手指,会发现他们的位置不一样,用数学方式把这个差距计算出来,就是视差。

在上述真实世界的视频中我们发现我们的网络也可以处理视差。

我们在optical flow benchmarks的数据集 Middlebury和Sintel 上进行测试:

  1. 使用我们的method来估计两个帧之间的homography
  2. 使用计算出的homography将这两个帧对齐
  3. 计算两个对齐的帧之间的光流

光流法(optical flow)简介

在这里插入图片描述
(c)中对齐后背景中几乎没有运动,而靠近相机的物体没有对齐,这表明,当我们把foreground objects也当作异常值(像dynamic object一样)去除之后,就能够找到一个homography来处理在尽可能大的区域里的运动。

我们的method就是通过检测 foreground objects 并也把它视作outliers进行处理。

Conclusion

1.收集了一个动态场景的大型视频数据集,并建造了合成数据集
2.开发了一个multi-scale,multi-stage deep neural network
3.用静态的MS-COCO数据集进行训练和测试,可以处理大型全局运动并获得最新的单应矩阵估计结果
4.用我们建造的dynamic-scene dataset训练网络,在一定程度上可以处理动态场景
5.我们的deep homography neural networks可以处理 动态场景、模糊场景、缺乏纹理 等图像。
### 回答1: Homography估计是一种计算机视觉技术,用于在两个平面之间进行几何变换。它可以用于图像配准、图像拼接、虚拟现实等应用中。Homography估计的目标是找到一个3x3的矩阵,将一个平面上的点映射到另一个平面上的点。这个矩阵可以通过多种方法来估计,包括最小二乘法、RANSAC等。 ### 回答2: Homography estimation是一种计算机视觉技术,指的是在图像处理中,通过计算两幅图像之间的变换关系,来实现不同图像之间的几何转换。这种技术可以应用于很多领域,包括但不限于机器人视觉、图像配准、增强现实、虚拟现实和数字图像处理等。 在homography estimation中,我们需要寻找两幅图像之间的变换矩阵。这个变换矩阵被称为幂律映射,可以将一幅图像的特征点集投影到另一幅图像的对应点集,从而实现两幅图像之间的几何变换。其中特征点可以是关键点、角点,也可以是一些其他算法提取出的特征点等。 常见的homography estimation算法有RANSAC和最小二乘法等。RANSAC算法是一种假设-验证的方法,它随机选择几个特征点,通过估计变换矩阵来验证这些点是否符合变换矩阵的假设。最小二乘法是一种基于矩阵代数的方法,通过最小化特征点之间距离的平方和来计算变换矩阵。 homography estimation的一个主要应用是图像配准。在医学影像、航拍影像、卫星影像等领域,需要将多幅图像进行配准,以实现更准确的测量和分析。homography estimation可以帮助我们计算不同图像之间的几何变换关系,从而实现图像的精确配准。 总之,homography estimation是一种重要的计算机视觉技术,它为图像处理和计算机视觉领域带来了很多便利和挑战。未来,随着人工智能和机器学习技术的不断发展,homography estimation将会得到更广泛的应用和深入的研究。 ### 回答3: homography estimation是指在计算机视觉中,通过图像对之间的空间变换关系来估计两个图像之间的投影映射。在计算机视觉领域中,对于单个图像来说,可以通过特征点的匹配关系来建立基础矩阵来描述两个图像之间的外参关系,而对于一组图像来说,则需要使用homography矩阵来描述它们之间的内参数和外参数关系。 homography estimation通常需要使用RANSAC算法来进行随机采样和模型拟合的过程,以确保对噪声和异常点有较好的鲁棒性和准确性。homography estimation主要应用于图像拼接、三维重建、目标跟踪、相机标定等领域,其优点在于适用于对于场景有较大的姿态变化、平面或近似平面场景、易于感知整个场景的视点调整等场景。同时,homography estimation也有其局限性,比如对于物体的旋转、缩放、形状变化等更为复杂的情况,其表现可能并不优秀。 总体来说,homography estimation可以为计算机视觉领域提供一种有效的图像对齐和重建的方法,有着广泛的应用场景和潜在的研究价值。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值