Time Will Tell：New Outlooks and A Baseline for Temporal Multi-View 3D Object Detection——论文笔记

最新推荐文章于 2024-07-19 17:26:10 发布

m_buddy

最新推荐文章于 2024-07-19 17:26:10 发布

阅读量309

点赞数

分类专栏： BEV Perception 文章标签：目标检测论文阅读人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m_buddy/article/details/128766421

版权

参考代码：SOLOFusion

1. 概述

介绍：汽车的驾驶过程是时变的，则对该场景的处理方法最好也应该具有时间维度引入。这篇文章提出现有BEV感知算法中时序信息信息存在特征粒度较粗（特征图尺寸小）和使用到的时序信息较少（使用到的帧数少） 的问题，同时观察到距离车体不同距离下对时序信息的敏感程度是不一样的，距离越远越则需要多帧信息，但是也需要考虑实际机器的资源是有限的。对于上述问题文章提出了分别在高分辨率（在图像特征空间构建cost volume）和低分辨率（在BEV特征空间构建cost volume）分别进行时序信息融合，并且两者相互补全。需要指出在高分辨率下是参考MVSNet的方法去构建cost volume，而低分辨率也是需要对特征进行对齐操作的，这样也需要知道对应帧间位姿关系。

使用图像进行深度估计过程中，自然是希望对应像素的偏差足够大，这样才能够明显区分并表征出来。对应到时序数据中也是希望所使用的视频段跨度大一些，这样在图像中呈现的差异也变大了，如下图所示，这样才能保证localization potential（文中用其表征多视图下深度估计的难易程度）
在这里插入图片描述

时序数据数量带来的影响：
将 $t - 1$ 帧中的点 $a$ 通过相机内外参数和到 $t$ 帧的位姿变换 $[R ∣ t]$ 映射到对应的 $b$ 点，这个映射关系自然可以写出。不过文中更加关注的是在点

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Time Will Tell：New Outlooks and A Baseline for Temporal Multi-View 3D Object Detection——论文笔记

介绍：汽车的驾驶过程是时变的，则对该场景的处理方法最好也应该具有时间维度引入。这篇文章提出现有BEV感知算法中时序信息信息存在特征粒度较粗（特征图尺寸小）和使用到的时序信息较少（使用到的帧数少）的问题，同时观察到距离车体不同距离下对时序信息的敏感程度是不一样的，距离越远越则需要多帧信息，但是也需要考虑实际机器的资源是有限的。对于上述问题文章提出了分别在高分辨率（在图像特征空间构建cost volume）和低分辨率（在BEV特征空间构建cost volume）分别进行时序信息融合，并且两者相互补全。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。