论文速读 -- BEVerse

论文速读 – BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving

先赞后看,养成好习惯。有帮助的话,点波关注!我会坚持更新,感谢您的支持!

参考
1. BEVerse
2. 3D视觉工坊解析
3. 评价指标mAP
4. nuScenes数据集评价指标

一. 摘要

文中提出了BEVerse网络,是一个统一的架构,完成基于多视觉的感知和预测任务。利用多时间戳和多视角图像进行共享特征提取,提升(lifting)生成4D BEV表征。自运动补偿之后,利用时空编码器进一步BEV特征提取。最后,使用多任务解码器进行联合推理和预测。在解码器上,提出栅格采样器(grid sampler)来生成支持不同范围和粒度的BEV特征。此外,还设计一个迭代流(iterative flow)方法,实现内存高效的预测。实验发现,时域信息可以提升3D目标检测和语义地图的构建,而多任务学习也有利于运动预测。


二. 介绍

在这里插入图片描述
主要工作

  • 提出了统一了感知和预测任务,多相机视角BEV表征的框架BEVerse。
  • 提出了迭代流的方法,进行高效的未来预测和多任务学习。
  • BEVerse 作为多任务模型,在3D目标检测、语义地图构建和运动预测任务上,达到sota水平。

相关工作
3D目标检测:FCOS3D、PGD、DETR3D、PETR、BEVDet
语义地图构建:HDMapNet(在线构建)、BEVSegFormer
运动预测:非监督学习方式居多、FIERY (第一个BEV运动预测框架)、StretchBEV
多任务学习:工作集中在怎样设计共享结构、怎样平衡优化多任务。FAFNet、MotionNet

三. 网络和方法

BEVerse从N个时间戳中获取M个环视摄像头图像,并将车辆自运动(ego-motion)和摄像头参数作为输入。数据结果包含当前帧障碍物的3D boundingbox语义地图运动预测。BEVerse由四个子模块组成:图像-视图编码器、视图转换器、时空BEV编码器和多任务解码器
在这里插入图片描述

3.1 图像-视图编码器

采用SwinTransformer做主干网络(backbone),创建多层次特征C2、C3、C4、C5,每一层宽高减半。采用BEVDet中上采样C5,将其与C4进行concatenate。

3.2 视图转换器

因为要学习3D时序信息,视图转换器将多视图特征F 和输出的BEV特征G。采用LSS(LiftSplat-Shoot)方法,特征F使用1*1卷积处理预测分类深度分布F’。

3.3 时空BEV编码器

先将过去帧进行时间对齐,使用FIERY方法,BEV编码器由一组时域块组成。主要包含3D卷积和全局池化和中间特征压缩层。

3.4 任务解码器

多任务解码器是并行和独立的一组解码器组成,每个任务解码器包括栅格采样器(grid sampler)、任务编码器(task encoder)和任务头(task head)。栅格采样器作用是裁剪任务特殊区域,通过bi-linear插值转化到理想的分辨率。任务编码器是按照BEVDet,使用ResNet中的基础模块取构建主干网络,并结合与图像-视图解码器类似的多尺度特征。

3.5 输出头

3D物体检测头。与激光存在的维度间隙(dimension gap)已经消失,直接使用CenterPoint第一阶段作为3D检测头。
语义地图构建头
运动预测头。不同于以上只关心当前帧的头,运动预测是对未来状态的预报。FIERY预测模块有效性受两个重要因素制约:(1)每个BEV像素共享采样的全局潜向量φt,不能代表许多个体的不确定性。(2) 仅从采样潜向量初始化未来状态,这样会提高预测的难度。与FIERY不同,我们提出了迭代流的方案,直接预测和采样潜在图,可以分离不同目标的不确定性。
在这里插入图片描述


四. 实验和结果

数据集:Nuscenes, 1000个自动驾驶视频片段,每个片段20s

  • 700 --> 训练
  • 150 --> 验证
  • 150 --> 测试

评价标准
3D目标检测nuScenes数据集评价指标
mAP:PR曲线下面积,各类的平均值
ATE、ASE、AVE、AOE、AAE
语义地图构建:mIoU,主要包含元素有车道线,人行横道,道路边界
运动预测:IoU和VPQ(Future Video Panoptic Quality)
在这里插入图片描述

结果
在这里插入图片描述

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
### 回答1: "Mit-Cheetah-Note"是一种学习辅助工具,旨在提高学生的学习效率和效果。它结合了MIT(麻省理工学院)的学习方法和猎豹速读技术。 首先,MIT-Cheetah-Note采用了麻省理工学院的学习方法。这些方法包括主题导图,问题解决和概念联系等。主题导图是一种可视化的学习工具,帮助学生整理和理解知识点之间的关系。问题解决则鼓励学生通过提出问题来主动思考和深入理解知识。概念联系是通过将新知识与已有知识相结合,加深学生对知识的理解。 其次,这个学习工具还集成了猎豹速读技术。速读是一种训练阅读效率和记忆力的技巧。通过使用猎豹速读技术,学生可以提高阅读速度和理解能力。这对于大量阅读任务的学生来说尤其有用,如备考、论文写作等。 MIT-Cheetah-Note采用了数码笔和智能设备相结合的方式进行学习记录和储存。学生可以使用数码笔在纸上做笔记,并通过智能设备将这些笔记同步到云端。这样一来,学生可以随时随地访问他们的学习记录,从而更好地回顾和复习。 总而言之,MIT-Cheetah-Note是将麻省理工学院的学习方法和猎豹速读技术融入一体的学习辅助工具。它帮助学生提高学习效率和效果,并通过数字化技术方便学生的学习记录和辅助复习。 ### 回答2: Mit-Cheetah-Note 是一种人工智能语音助手,最初由麻省理工学院(MIT)研发。该技术基于深度学习和自然语言处理,在提供智能语音交互的同时,还具备类似于记事本的功能。 Mit-Cheetah-Note 可以用于多个方面,例如记录会议笔记、制定待办事项、管理日程安排等。用户可以通过语音指令来创建笔记,编辑文本内容或者提醒自己日程。Mit-Cheetah-Note 还能理解自然语言,对语音指令做出准确的响应,从而提高用户的工作效率。 与其他语音助手相比,Mit-Cheetah-Note 的特点是其记事本功能。用户可以通过语音输入方式,较快地记录需要记下的信息,而无需手动键入。此外,Mit-Cheetah-Note 还有一个方便的搜索功能,可通过关键词搜索用户之前创建的笔记内容,帮助用户快速找到所需的信息。 Mit-Cheetah-Note 可以应用于多种场景,如商务会议、学术讲座、个人笔记等。它不仅可以减少记笔记的时间和工作量,还可以提高笔记的准确性和完整性。 总之,Mit-Cheetah-Note 是一种集成了语音助手和记事本功能的人工智能技术,使用户能够通过语音指令快速记录信息和管理日程,提高工作效率。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Darchan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值