自动驾驶感知新范式——BEV感知经典论文总结和对比（下）

苹果姐

已于 2022-07-26 16:16:16 修改

阅读量5.1k

点赞数 5

分类专栏：计算机视觉原创知识分享文章标签：自动驾驶计算机视觉深度学习图像处理目标检测

于 2022-07-22 22:08:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43148897/article/details/125940889

版权

本文承接上篇：

自动驾驶感知新范式——BEV感知经典论文总结和对比（上）_苹果姐的博客-CSDN博客bev感知经典论文总结和对比https://blog.csdn.net/weixin_43148897/article/details/125940492?spm=1001.2014.3001.5501

4 DETR3D引入3D位置编码：PETR[10]和PETRv2[11]（旷世科技，2022）

[10] PETR: Position Embedding Transformation for Multi-View 3D Object Detection

[11] PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

代码：GitHub - megvii-research/PETR: [ECCV2022] PETR: Position Embedding Transformation for Multi-View 3D Object Detection

PETR论文指出，DETR3D虽然可以得到比较好的性能，但是存在三个问题：

1.bev空间与多视图之间的信息交互依赖于3D参考点估计的准确性，如果估计不准，可能无法投影到有效区域内，无法与2D图像进行交互；

2.只进行了object queries与3D参考点投影的2D点的特征之间的信息交互（前文提到），没有学习到全局信息；

3.由于需要采样和投影，DETR3D的pipeline相对复杂，影响推理的效率。

所以，PETR摒弃了采样和投影，直接计算2D多视图对应的3D位置编码，并加到2D图像特征中，再和3D的object queries进行交互，直接对3D object queries进行更新，大大简化了pipeline。DETR/DETR3D/PETR的对比图和PETR结构图如下所示：

最低0.47元/天解锁文章

关注

5
点赞
踩
56

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄6年

25
原创

90
点赞

557
收藏

122
粉丝

关注

私信

热门文章

分类专栏

计算机视觉原创知识分享 25篇

最新评论

深度估计自监督模型monodepth2论文总结和源码分析【理论部分】
TheThrity: 大佬你好，我有一些问题想要咨询一下：我通过阅读代码： #这里是以中间帧的深度图获取了3D点 cam_points = self.backproject_depth[source_scale]( depth, inputs[("inv_K", source_scale)]) #这里是把3D点重新投影到前后两个帧 pix_coords = self.project_3d[source_scale]( cam_points, inputs[("K", source_scale)], T) outputs[("sample", frame_id, scale)] = pix_coords #追加颜色然后存储 outputs[("color", frame_id, scale)] = F.grid_sample( inputs[("color", frame_id, source_scale)], outputs[("sample", frame_id, scale)], padding_mode="border") 我不理解的地方是： target = inputs[("color", 0, source_scale)] 为什么损失计算的时候： for frame_id in self.opt.frame_ids[1:]: pred = outputs[("color", frame_id, scale)] reprojection_losses.append(self.compute_reprojection_loss(pred, target)) 明明pred是前后两帧的，为什么不和前后两帧比较计算损失，反而和中间帧比较计算损失
深度估计自监督模型monodepth2在自己数据集的实战——单卡/多卡训练、推理、Onnx转换和量化指标评估
涂涂小兔0209: 利用训练好的模型，目前可以输入自己的test图像输出深度图，请问如何计算"abs_rel", “sq_rel”, “rmse”, “rmse_log”, “a1”, “a2”, "a3"等指标吖？
深度估计自监督模型monodepth2在自己数据集的实战——单卡/多卡训练、推理、Onnx转换和量化指标评估
Kasiuc: 想请问一下，单目下加入bin文件进行训练，是不是还需要一个calib文件？
鱼眼投影模型理解以及opencv官方文档和同类文章勘误
kkmd66: 在单位投影平面中，根据等距投影公式，就是r_d=theta_d，我认为opencv没有写错
深度估计自监督模型monodepth2在自己数据集的实战——单卡/多卡训练、推理、Onnx转换和量化指标评估
春日部园长: 博主好，我基于自己的数据，用单目自监督的方法训练出了一版模型，用这个模型做推理，输出的结果很奇怪，看起来并没有得到合理的深度。我注意到在原项目的github里也有人提出了类似问题，但并没有得到作者的回复(https://github.com/nianticlabs/monodepth2/issues/483)，想请教下大佬出现这种情况的原因是什么？

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。