#今日论文推荐# ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

最新推荐文章于 2022-11-06 16:05:06 发布

wwwsxn

最新推荐文章于 2022-11-06 16:05:06 发布

阅读量310

点赞数 1

分类专栏：深度学习文章标签：深度学习计算机视觉人工智能

原文链接：https://www.aminer.cn/research_report/62e1ed8c7cb68b460ff5b2af

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

来自萨里大学的研究者引入了注意力机制，将自动驾驶的 2D 图像转换为鸟瞰图，使得模型的识别准确率提升了 15%，并斩获了 ICRA 2022 的杰出论文奖。
对于自动驾驶中的许多任务来说，从自上而下、地图或鸟瞰 (BEV) 几个角度去看会更容易完成。由于许多自动驾驶主题被限制在地平面，所以俯视图是一种更实用的低维表征，对于导航也更加理想，能够捕获相关障碍和危险。对于像自主驾驶这样的场景，语义分割的 BEV 地图必须作为瞬时估计生成，以处理自由移动的对象和只访问一次的场景。
要想从图像推断 BEV 地图，就需要确定图像元素与它们在环境中的位置之间的对应关系。此前的一些研究以稠密深度图和图像分割地图指导这种转换过程，还有研究延展了隐式解析深度和语义的方法。一些研究则利用了相机的几何先验，但并没有明确地学习图像元素和 BEV 平面之间的相互作用。
在近期一篇论文中，来自萨里大学的研究者引入了注意力机制，将自动驾驶的 2D 图像转换为鸟瞰图，使得模型的识别准确率提升了 15%。这项研究在不久前落幕的 ICRA 2022 会议上获得了杰出论文奖。

与以往的方法不同，这项研究将 BEV 的转换视为一个「Image-to-World」的转换问题，其目标是学习图像中的垂直扫描线（vertical scan lines）和 BEV 中的极射线（polar ray）之间的对齐。因此，这种射影几何对网络来说是隐式的。
在对齐模型上，研究者采用了 Transformer 这种基于注意力的序列预测结构。利用其注意力机制，研究者明确地建模了图像中垂直扫描线与其极性 BEV 投影之间的成对相互作用。Transformer 非常适合图像到 BEV 的转换问题，因为它们可以推理出物体、深度和场景照明之间的相互依赖关系，以实现全局一致的表征。
研究者将基于 Transformer 的对齐模型嵌入到一个端到端学习公式中，该公式以单目图像及其固有矩阵为输入，然后预测静态和动态类的语义 BEV 映射。
本文构建了一个体系结构，有助于从对齐模型周围的单目图像预测语义 BEV 映射。如下图 1 所示，它包含三个主要组成部分：一个标准的 CNN 骨干，用于提取图像平面上的空间特征；编码器 - 解码器 Transformer 将图像平面上的特征转换为 BEV；最后一个分割网络将 BEV 特征解码为语义地图。

论文题目：Translating Images into Maps
详细解读：https://www.aminer.cn/research_report/62e1ed8c7cb68b460ff5b2afhttps://www.aminer.cn/research_report/62e1ed8c7cb68b460ff5b2af
AMiner链接：https://www.aminer.cn/?f=cs

wwwsxn

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#今日论文推荐# ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%

来自萨里大学的研究者引入了注意力机制，将自动驾驶的 2D 图像转换为鸟瞰图，使得模型的识别准确率提升了 15%，并斩获了 ICRA 2022 的杰出论文奖。
复制链接

扫一扫