蓝色
紫色
红色
date: 2021-12-01 21:23:07
Motion Basis Learning for Unsupervised Deep Homography Estimation with Subspace Projection
基于子空间投影的无监督单应矩阵估计的运动基础学习
Code: BasesHomo
Abstract
提出了一种新的 无监督 深度单应矩阵估计框架,主要贡献如下:
- 预测的并非是四角偏移,而是一种 单应光流表示(可通过 8个预先计算的homo flow bases的加权和 求到)
- 提出了一个 Low Rank Representation (LRR) block 来降低运动特征的秩,来使得 特征关注于主导运动,隐式地降低运动噪声
- 提出了一个 Feature Identity Loss (FIL) 来保证 学习到的图像特征是 扭曲等变 的(交换 扭曲操作 和 特征提取 的顺序,还是可以保证结果一样)
这样的限制下,可以实现更有效更稳定的 无监督优化,并且可以学到 更稳定的特征
1. Introduction
Homo 是具有8个自由度的 3*3 矩阵,其中这8个自由度分别由 2个 尺度变换、平移、旋转、透视变换 构成。
传统方式通常检测和匹配特征点对(剔除掉外点),然后通过 Direct Linear Transform (DLT) 来得到 H。
端到端的深度单应方法,直接输出 H 。相较于严重依赖于 提取的特征点对 ,深度方法会更加鲁棒。深度方法分为监督和无监督两大类。监督学习需要真实的单应标签,合成的图像数据集缺少 深度差异 。无监督学习的泛化性更好,能够使用真实场景图像进行训练,通过最小化 光度损耗photometric loss 来训练。
关于矩阵的秩,图像feature map 的秩,还有待学习,参考 [模型剪枝]。
2. Related works
Traditional - Deep 如上描述
Bases learning
关联论文:Robust recovery of subspace structures by low-rank representation. [高引 2600+] PAMI 12’
LSM: Learning Subspace Minimization for Low-Level Vision CVPR 20’ Tang et al.
Tang 等人 的工作 展示了在 底层视觉问题中 存在一些 子空间可以被用于正则化。
Efficient sparse-to-dense optical flow estimation using a learned basis and layers CVPR 15’ Jonas Wulff
PCAFlow:流估计 可以转换为 学习到的光流基(flow bases)的加权和的学习
大基线:离相机较远的场景
小基线:离相机比较近
本文适用于 小基线场景
参考链接:基于宽基线图像远距离场景的自动三维重建