《CAMERAS AS RAYS: POSE ESTIMATION VIA RAY DIFFUSION》阅读笔记

论文地址:https://arxiv.org/abs/2402.14817

项目地址:https://github.com/jasonyzhang/RayDiffusion

---------------------------------------------------------------------------------------------------------------------------------

任务:

                                                        3D重建的估计相机姿势任务

挑战:

                                                        稀疏采样视图(<10)估计相机位姿

本文提出解决:

    与现有的追求摄像机外部全局参数化的自上而下预测的方法相反,作者提出了一种相机姿态的分布式表示,将相机视为一束光线。这种表示允许与空间图像特征紧密耦合,从而提高姿态精度。

大致过程:

基于回归:

        首先将image分为多个patch,其次将相机表示为射线,每条射线都以相机中心作为出发点,射向image中的对应patch中心,这时可以将相机表示为射线,同时射线的汇聚中心为相机中心

基于去噪模型:

        经典diffusion model结构。将image每个patch所对应的射向(GT)进行加噪,然后image作为condition进行去噪,优化射线的位置。

贡献:

         1. 将位姿预测任务重新表述为推断每个图像块的光束方程,而不是推断全局相机参数化。

         2. 提出了一种简单的基于回归的方法,用于在稀疏采样视图中推断这种表示,并展示了即使是这种简单的方法也超过了最新技术。

         3. 扩展了这种方法,通过学习基于光束的相机参数化的去噪扩散模型来捕捉相机分布,从而进一步提高了性能。

方法细节:

目标是从一组稀疏图像 {I1, . . . , IN } 中恢复相机。

  • 1. 与之前工作中直接预测全局相机参数化的方法不同,作者提出了一种基于射线的表示,这种表示可以无缝地转换为经典表示
  • 2. 作者描述了一种基于回归的架构来预测基于射线的相机。
  • 3. 在这个架构的基础上,作者引入了一个概率框架,通过扩散来估计射线,以处理稀疏采样视图中出现的不确定性和对称性。

1. 用射线表示相机

分布式射线表示

        补充:通常情况下,相机通过其外参(旋转矩阵 R \in SO(3), 平移向量 t \in \mathbb{R}^{3})和内参矩阵来参数化 K \in \mathbb{R}^{3 \times 3}

问题:

        尽管相机参数化紧凑地描述了通过相机投影将世界坐标与像素坐标之间的关系(u=K[R|T]x)。但对于神经网络来说,直接回归这种低维表示可能比较困难。

启发:

        校准的广义相机模型

解决:

        将相机过度参数化为一组射线 :  \mathcal{R} = \{ r_1, \ldots, r_m \}

其中,每条射线  r_i \in \mathbb{R}^{6} 与已知的像素坐标  u_i 相关联,作者使用普吕克坐标将沿方向d \in \mathbb{R}^{3}通过任意点 p \in \mathbb{R}^{3},参数化每条射线  r :r=<d,m> \in \mathbb{R}^{6}

其中,m=p \times q \in \mathbb{R}^{3} 是动量向量。重要的是: 这个动量向量与用于计算它的射线上的具体点无关。

相机射线束的转换:

        给定一个已知的相机和一组二维像素坐标 \left \{ u_i \right \}_m ,可以通过从像素坐标反投影射线来计算方向 d,并通过将相机中心视为点 p 来计算动量 m,因为所有射线都在相机中心相交:

d = R^{T} \times K^{-1} \times u, m = (-R^{T} \times t) \times d

其中,u_i 通过在图像或图像裁剪的网格上均匀采样点    

(这能够将图像中的每个补丁与通过补丁中心的一条射线相关联,在后面设计一个基于补丁和射线条件的架构时使用这一点)

射线束相机的转换:

        给定与二维像素 \left \{ u_i \right \}_m 相关联的射线集合 \mathcal{R} = \{ r_1, \ldots, r_m \}可以恢复相机的外参和内参。

        首先,通过找到 \mathcal{R} 中所有射线交点最近的三维世界坐标来解决相机中心 c:

                        ​​​​​​​        

        ​​​​​​​        ​​​​​​​        ​​​​​​​        

        其次,为了求解每个相机的旋转矩阵 R(以及内参矩阵 K ),将每像素射线方向从预测的转换为“身份”相机(K = I 和 R = I)方向的最优单应矩阵 P:

        ​​​​​​​        ​​​​​​​        ​​​​​​​        

        矩阵 P 可以通过 DLT计算,并且由于 K 是上三角矩阵而 R 是正交矩阵,可以通过 RQ 分解恢复 R。一旦恢复了相机旋转矩阵 R 和相机中心  c ,平移向量 t 可以通过 t = -R^{T}c 计算得到。

2. 通过射线回归进行姿态估计

        给定真实的相机参数,可以计算出真实的射线束 \{ \mathcal{R}_{1}, \mathcal{R}_{2}, ...., \mathcal{R}_{N} \}

相机和光线表示之间的转换:将相机表示为由方向力矩组成的6维plucker射线的集合

相机→光线:从相机中心到像素坐标的非投影光线,将相机的传统表示转换为射线束表示

光线→相机:通过求解相机中心、固有矩阵和旋转矩阵的最小二乘优化,将光线转换回传统的相机表示

        在图像上均匀的 p × p 网格上计算射线,使得每个射线束包含 m = p² 条射线 为了确保射线与图像patch之间的一致性,我们使用空间图像特征提取器,并将每个patch特征视为一个 token:

 f_{feat}(I) = f \in \mathcal{R}^{p \times p \times d}

        为了利用裁剪参数,作者还将像素坐标 u 连接到每个空间特征。

使用基于 Transformer 的架构,该架构联合处理来自 N 张图像的 p² 个 token,并预测与每个补丁对应的射线:

通过计算预测的相机射线上的重建损失来训练网络:

3. 通过去噪射线扩散进行姿态估计

问题:

        基于补丁回归的架构可以有效预测基于射线的参数化,但在稀疏视图的情况下,预测姿态(以射线的形式)仍可能存在歧义

解决问题:

        处理预测中的固有不确定性(由于对称性和部分观测)

解决方法:

        将之前描述的回归方法扩展为学习基于扩散的概率模型,用分布式射线表示。

具体实现:

        将这个去噪扩散框架实例化为在输入图像条件下建模补丁射线的分布,在基于射线回归网络的基础上,使其额外依赖于噪声射线(与补丁特征和像素坐标连接)和位置编码的时间嵌入:

其中,噪声射线  r_{i,t}  定义为: 

---------------------------------------------------------------------------------------------------------------------------------

我也是刚了解这一方向,有什么分析不正确的地方,还望大家多提建议,多多指导。

  • 25
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
泛化目标检测对于自动驾驶中的鱼眼摄像头:数据 泛化目标检测是指将模型从一种场景转移到另一种不同场景下的能力。在自动驾驶中,由于鱼眼摄像头的广角特性,它可以提供更广阔的视野范围,从而增强对道路上目标物体的感知能力。 要实现泛化目标检测,数据是至关重要的。首先,我们需要采集大量的鱼眼摄像头数据,以涵盖各种不同场景和驾驶条件,例如白天、夜间、不同天气条件以及不同道路类型。这些数据应该包括各种不同类型的目标物体,如车辆、行人和交通标志等。 为了增强泛化能力,数据应该覆盖多样性。我们需要在不同地理位置和城市之间进行数据采集,以捕捉不同地区的驾驶场景和道路条件。此外,还要注意在训练数据中包含一些较为罕见和复杂的场景,这样模型在遇到这些情况时也能够有效检测和处理。 在准备数据时,我们还需要考虑数据标注的准确性。由于目标检测需要标注每个图像中的目标位置和类别,对于鱼眼图像来说可能会更复杂。因此,在数据标注过程中需要使用专业工具和技术,确保目标物体的精确标注。 最后,为了提高数据的利用效率,可以使用数据增强技术来生成更多样性的训练样本。例如,可以通过旋转、扭曲和变换来生成具有不同角度和姿态的目标物体。 总结起来,泛化目标检测对于自动驾驶中的鱼眼摄像头需要大量多样性的数据。这些数据应该涵盖不同的场景、驾驶条件和地理位置。在数据准备和标注时,需要注意数据的准确性和多样性,以及使用数据增强技术来提高数据利用效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值