Deep Homography Estimation for Dynamic Scenes 论文笔记

最新推荐文章于 2023-10-16 16:09:06 发布

Nismilesucc

最新推荐文章于 2023-10-16 16:09:06 发布

阅读量1.1k

点赞数 1

分类专栏： Paper 文章标签：其他图像处理动态规划

HUIKI

本文链接：https://blog.csdn.net/Nismilesucc/article/details/111566921

版权

Paper 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Introduction

单应矩阵估计方法（传统+deep learning）

在这里插入图片描述

本文的工作

在这里插入图片描述

`auxiliary loss function:` compares the `dynamic mask` from the ground-truth dynamics map that is estimated from the training data.

Related Work

`1.Pixel-based approaches`

直接搜索使得两张图片对齐误差最小的单应矩阵

已有的误差度量和参数搜索算法（层次估计、傅立叶对齐）能够使得这些方法强大高效。

适用情况： 对缺乏纹理的图像具有鲁棒性，但难以处理较大运动

`2.Feature-based approaches`

使用算法(eg.SIFT and SURF)估计局部特征点
在两张图片间匹配特征点
对于一对匹配点，可基于 $p_1=Hp_2$ 求解最小二乘问题来获得最佳单应矩阵

注意： 特征匹配时可能会产生错误，特征点可能会来自移动的对象，因此常使用RANSAC和Magsac等鲁棒估计算法来去除异常值。

适用情况： 该方法的性能取决于局部特征的检测和匹配，不太适用于模糊和缺乏纹理的图像

`3.Deep learning approaches`

在这里插入图片描述

以上方法仅基于静态场景下取得成功，没有考虑动态场景

`4.本文 multi-scale neural network 的改进`

相较于之前的hierarchical neural network的工作，我们的method从输入图像的低分辨率版本开始，逐渐增加输入图像的大小，而非在每个阶段都以原始输入图像作为input，这使得我们的方法相对于大运动更加稳健。
相较于之前的Lucas_Kanade layer的工作，我们的method使用前一阶段估计的单应矩阵将输入图像预先对齐到下一阶段，以最小化全局运动。这有助于后期网络解决全局运动
加入a dynamics mask network来处理动态场景。<之前的neural network-based未考虑的>

Experiments

在这里插入图片描述

评估指标：the mean corner error

$e_c=\frac{1}{4}\sum_{j=1}^{4}||c_j-\hat{c_j}||_2$

其中， $c_j$ 是 $corner\ j$ 通过estimated homography变换得到的， $\hat{c_j}$ 是 $corner\ j$ 通过 ground-truth homography得到的。

训练集的影响

我们分别在动态场景的静态版本和动态版本上训练了homography network

在这里插入图片描述

动态区域大小的影响

在这里插入图片描述

Discussions

`Scale selection`

An important hyper-parameter of our multi-scale neural network：number of scales

在这里插入图片描述

`Real-World videos`

在这里插入图片描述

我们使用合成数据集进行训练，并在NUS stabilization benchmark的video进行了测试
实验结果显示我们的网络可以很好的应用于真实视频，并且可以通过检查dynamics masks来识别动态内容

`Parallx`

视差的简单解释：把手指放在据眼睛较近的地方，分别用左右两只眼睛看手指，会发现他们的位置不一样，用数学方式把这个差距计算出来，就是视差。

在上述真实世界的视频中我们发现我们的网络也可以处理视差。

我们在optical flow benchmarks的数据集 Middlebury和Sintel 上进行测试：

使用我们的method来估计两个帧之间的homography
使用计算出的homography将这两个帧对齐
计算两个对齐的帧之间的光流

光流法(optical flow)简介

在这里插入图片描述
（c）中对齐后背景中几乎没有运动，而靠近相机的物体没有对齐，这表明，当我们把foreground objects也当作异常值(像dynamic object一样)去除之后，就能够找到一个homography来处理在尽可能大的区域里的运动。

我们的method就是通过检测 foreground objects 并也把它视作outliers进行处理。

Conclusion

1.收集了一个动态场景的大型视频数据集，并建造了合成数据集

2.开发了一个`multi-scale,multi-stage deep neural network`

3.用静态的MS-COCO数据集进行训练和测试，可以处理大型全局运动并获得最新的单应矩阵估计结果

4.用我们建造的`dynamic-scene dataset`训练网络，在一定程度上可以处理动态场景

5.我们的`deep homography neural networks`可以处理动态场景、模糊场景、缺乏纹理等图像。

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Nismilesucc CSDN认证博客专家 CSDN认证企业博客

码龄5年

184: 原创

24万+: 周排名

107万+: 总排名

25万+: 访问

: 等级

2297: 积分

69: 粉丝

162: 获赞

59: 评论

878: 收藏

私信

关注

热门文章

分类专栏

算法竞赛知识点整理 40篇
环境配置 25篇
论文笔记 11篇
Paper 7篇
图像处理 7篇
杂记 9篇
SLAM 7篇
Computer Vision 8篇
Linux 7篇
machine learning 15篇
python 14篇

最新评论

COTR模型跑起来的一些记录
胡萝贝呀: 有解决嘛
Linux安装 metashape
qq_44797111: 软件崩溃了是啥原因
Ubuntu20.04安装CUDNN、Ceres和Colmap
黎泉: CMake Error at CMakeLists.txt:176 (add_subdirectory): The source directory /home/robotic-arm/3dgs/ceres-solver/third_party/abseil-cpp does not contain a CMakeLists.txt file.
一些cmake error fixed
不要辣椒油丶丶: 安装好之后还是不行，不知道咋解决： UserWarning: CUDA extension svox2.csrc could not be loaded! Operations will be slow. Please do not import svox in the svox2 source directory. warn("CUDA extension svox2.csrc could not be loaded! " + 晕死了，看看博主方不方便教教我
Linux安装 metashape
彬-: 求助下，破解文件在哪里获取的呢

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。