《CAMERAS AS RAYS: POSE ESTIMATION VIA RAY DIFFUSION》阅读笔记

论文地址:https://arxiv.org/abs/2402.14817

项目地址:https://github.com/jasonyzhang/RayDiffusion

---------------------------------------------------------------------------------------------------------------------------------

任务:

                                                        3D重建的估计相机姿势任务

挑战:

                                                        稀疏采样视图(<10)估计相机位姿

本文提出解决:

    与现有的追求摄像机外部全局参数化的自上而下预测的方法相反,作者提出了一种相机姿态的分布式表示,将相机视为一束光线。这种表示允许与空间图像特征紧密耦合,从而提高姿态精度。

大致过程:

基于回归:

        首先将image分为多个patch,其次将相机表示为射线,每条射线都以相机中心作为出发点,射向image中的对应patch中心,这时可以将相机表示为射线,同时射线的汇聚中心为相机中心

基于去噪模型:

        经典diffusion model结构。将image每个patch所对应的射向(GT)进行加噪,然后image作为condition进行去噪,优化射线的位置。

贡献:

         1. 将位姿预测任务重新表述为推断每个图像块的光束方程,而不是推断全局相机参数化。

         2. 提出了一种简单的基于回归的方法,用于在稀疏采样视图中推断这种表示,并展示了即使是这种简单的方法也超过了最新技术。

         3. 扩展了这种方法,通过学习基于光束的相机参数化的去噪扩散模型来捕捉相机分布,从而进一步提高了性能。

方法细节:

目标是从一组稀疏图像 {I1, . . . , IN } 中恢复相机。

  • 1. 与之前工作中直接预测全局相机参数化的方法不同,作者提出了一种基于射线的表示,这种表示可以无缝地转换为经典表示
  • 2. 作者描述了一种基于回归的架构来预测基于射线的相机。
泛化目标检测对于自动驾驶中的鱼眼摄像头:数据 泛化目标检测是指将模型从一种场景转移到另一种不同场景下的能力。在自动驾驶中,由于鱼眼摄像头的广角特性,它可以提供更广阔的视野范围,从而增强对道路上目标物体的感知能力。 要实现泛化目标检测,数据是至关重要的。首先,我们需要采集大量的鱼眼摄像头数据,以涵盖各种不同场景和驾驶条件,例如白天、夜间、不同天气条件以及不同道路类型。这些数据应该包括各种不同类型的目标物体,如车辆、行人和交通标志等。 为了增强泛化能力,数据应该覆盖多样性。我们需要在不同地理位置和城市之间进行数据采集,以捕捉不同地区的驾驶场景和道路条件。此外,还要注意在训练数据中包含一些较为罕见和复杂的场景,这样模型在遇到这些情况时也能够有效检测和处理。 在准备数据时,我们还需要考虑数据标注的准确性。由于目标检测需要标注每个图像中的目标位置和类别,对于鱼眼图像来说可能会更复杂。因此,在数据标注过程中需要使用专业工具和技术,确保目标物体的精确标注。 最后,为了提高数据的利用效率,可以使用数据增强技术来生成更多样性的训练样本。例如,可以通过旋转、扭曲和变换来生成具有不同角度和姿态的目标物体。 总结起来,泛化目标检测对于自动驾驶中的鱼眼摄像头需要大量多样性的数据。这些数据应该涵盖不同的场景、驾驶条件和地理位置。在数据准备和标注时,需要注意数据的准确性和多样性,以及使用数据增强技术来提高数据利用效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值