全向高分辨多模态数据集OmniHD-Scenes技术分享~

作者 | 整数家 编辑 | 整数智能

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『自动驾驶』技术交流群

本文只做学术分享,如有侵权,联系删文

更多OmniHD-Scenes的技术细节和实现方案:
技术博客:https://www.2077ai.com/OmniHD-Scenes
研究论文:https://arxiv.org/abs/2412.10734

1.直播回放

感谢大家对OmniHD-Scenes技术分享会的关注与支持!本次直播整数智能联合自动驾驶之心,深入探讨了基于4D毫米波雷达的全向环境感知数据集,详细介绍了多模态数据集的构建方法、4D标注真值生成、基于VLM的Occupancy标注以及多传感器融合实验分析等核心内容。

错过直播的小伙伴不用着急,我们已将完整直播内容上传:

2.问题解答

同时,我们整理了直播过程中的众多精彩提问,并由专家团队进行了详细解答,欢迎查看完整问答内容:

1. 是否有OmniHD的测试代码?/代码是否开源?
项目代码将全部开源。

2. 数据集目前是否可以下载?
数据集预计于三月底完成法务流程后开放下载。

3. VLM如何帮助3D真值生成?/ OCC如何和VLM配合使用?
项目创新性地将Grounded-SAM应用于自动驾驶场景的真值生成。通过优化的Prompts strategy实现精确的交通场景语义分割,为点云数据提供丰富的语义信息。实验结果表明,在仅使用50%的OCC伪标签情况下,系统可达到92%以上的真值训练性能,显著提升了标注效率。当前技术在远距离目标的投影精度和复杂遮挡场景下仍存在一定局限性,这也是未来优化的重点方向。
                     

4. 运动中的车辆如何标注?
         


5. 4D Radar是如何去除多径虚景?
系统采用高精度同步触发机制进行数据采集,为确保多传感器数据的精确对齐,实现了完整的运动补偿方案。考虑到LiDAR 10Hz的采样频率会导致运动畸变,系统通过高频率自测获取精确的位姿信息,结合线性插值或球面线性插值算法进行补偿。该方案有效解决了传统点云采集中的运动畸变问题,显著提升了数据质量和后续处理精度。

6. 如何进行脱敏处理?
在进行数据脱敏处理时,需要重点关注人脸和车牌两大核心对象。对于人脸识别,系统要求在不同图像分辨率下(如长边>690像素时最小检出人脸≥长边/60)满足特定姿态角度范围(水平转动±45°,俯仰角±30°,倾斜角±45°),并确保关键部位的完整度达标。车牌识别则需要依据图像高度(>1080像素时最小检出高度≥高度/54)设定检测标准。脱敏处理采用统一色块或马赛克替换方案,确保数据不可逆且不可恢复。整个处理过程需满足严格的性能指标:脱敏区域与实际区域交并比维持在50%~85%之间,同时检测准确率不低于90%,误检率不超过10%,召回率达到90%以上。为确保数据的多样性和代表性,建议采集不少于300小时的不同地域车载摄像头视频序列,并保持原始分辨率和帧率进行处理。

7. 构建地图的时候,点云有做运动补偿吗?
动态障碍物补偿是自动驾驶感知中的关键挑战。由于LiDAR的360度扫描特性,在切包处补偿后可能出现显著的位移偏差。我们的解决方案包括:

  • 通过标注信息精确计算跟踪目标的运动状态(速度矢量、朝向等)

  • 基于状态估计对点云和检测框进行位置补偿

  • 在100ms扫描周期内采用匀速直线运动假设    

8. 抽帧有什么建议?

基于dynamic object detection技术,我们建议采用每秒2帧的抽帧频率,这一方案在标注效率和经济性方面达到最优平衡。

9. ICP会改变某一帧点云结果吗?

ICP主要输出位姿信息,通过匹配方式优化动态目标点云叠加效果。由于采用刚体转换,不会改变点云本身的形态特征。

10. 目前是否支持复现其他目标识别算法?

项目将开源baseline和完整的数据评估流程。

11. 动态障碍物运动补偿有什么建议?

LiDAR 360度扫描特性导致切包处补偿后存在位移偏差。可通过标注信息计算跟踪目标状态(速度、朝向等)进行点云和框的位置计算。目前采用100ms内匀速直线运动假设。

12.有没有三维重建这种虚拟数据方向?

数据采集自国家测试路段和封闭测试场,提供局部坐标系下的位姿信息及经脱敏处理的图像数据,可支持不同的重建任务。

13. 请问真值是用什么软件标注的?

采用整数智能自研的MooreData数据工程平台进行标注。该平台专注于自动驾驶场景下的数据标注需求,通过智能化工具和专业标注团队的配合,显著降低了4D数据标注成本,为用户提供高效、专业、经济的标注解决方案。目前该平台在高精度点云处理、多模态数据融合等方面具有显著优势。

14. 这个动态框也是标注之后合成的吗?

系统实现了高精度的多模态数据标注映射机制。具体流程包括:

  • 基于标注的3D信息进行初始化处理

  • 通过精确标定的转换矩阵实现雷达坐标系到相机坐标系的变换

  • 利用相机内参将3D信息投影至成像平面

  • 建立像素级的精确映射关系

这个机制确保了不同传感器数据间的精确对齐,为后续的感知算法开发提供了高质量的训练数据。

15. 相机是什么模型?鱼眼吗?

本项目采用标准针孔相机模型进行图像采集,区别于鱼眼结构,该配置能够确保更高的几何精度和成像质量。相机系统经过严格的参数标定,可提供稳定的成像效果和准确的投影关系,其视场角和焦距的选择均经过优化,以满足自动驾驶场景的特定需求。在雷达系统方面,项目选用几何伙伴(Geometric Partner)最新一代4D毫米波雷达,保留了完整的原始点云数据,包含空间和多普勒信息,并支持直接访问原始电源数据。

关于多径效应处理,我们选择保留原始多径信息,使研究者可以根据具体需求选择适当的处理方案,如基于空间滤波的方法、基于多普勒特征的分离技术或深度学习based的去噪方案等。我们将发布包含完整原始数据、详细传感器标定参数以及标注结果的综合数据集,并提供相应的评估基准,以支持研究者开展多样化的算法探索和验证工作。

16. 开源数据是7V还是11V的方案?

采用6V的方案,前后视配置800万像素,侧视配置200万像素。系统将开放所有数据,包括点云、图像数据、标注结果及投影外参。

如果您对OmniHD-Scenes还有任何疑问,欢迎在评论区留言,我们会持续关注并及时回复。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

数据集介绍:神经元细胞核检测数据集 一、基础信息 数据集名称:神经元细胞核检测数据集 图片数量: - 训练集:16,353张 - 测试集:963张 分类类别: - Neuron(神经元细胞核):中枢神经系统的基本功能单位,检测其形态特征对神经科学研究具有重要意义。 标注格式: - YOLO格式,包含边界框坐标及类别标签,适用于目标检测任务 - 数据来源于显微镜成像,覆盖多种细胞分布形态和成像条件 二、适用场景 神经科学研究: 支持构建神经元定位分析工具,助力脑科学研究和神经系统疾病机理探索 医学影像分析: 适用于开发自动化细胞核检测系统,辅助病理诊断和细胞计数任务 AI辅助诊断工具开发: 可用于训练检测神经元退行性病变的模型,支持阿尔茨海默症等神经疾病的早期筛查 生物教育及研究: 提供标准化的神经元检测数据,适用于高校生物学实验室和科研机构的教学实验 三、数据集优势 大规模训练样本: 包含超1.6万张训练图像,充分覆盖细胞核的多样分布状态,支持模型深度学习 精准定位标注: 所有标注框均严格贴合细胞核边缘,确保目标检测模型的训练精度 任务适配性强: 原生YOLO格式可直接应用于主流检测框架(YOLOv5/v7/v8等),支持快速模型迭代 生物学特性突出: 专注神经元细胞核的形态特征,包含密集分布、重叠细胞等真实生物场景样本 跨领域应用潜力: 检测结果可延伸应用于细胞计数、病理分析、药物研发等多个生物医学领域
数据集介绍:多环境动物及人类活动目标检测数据集 一、基础信息 数据集名称:多环境动物及人类活动目标检测数据集 图片数量: - 训练集:12,599张图片 - 验证集:1,214张图片 - 测试集:607张图片 总计:14,420张图片 分类类别: - bear(熊): 森林生态系统的顶级掠食者 - bird(鸟类): 涵盖多种飞行及陆栖鸟类 - cougar(美洲狮): 山地生态关键物种 - person(人类): 自然环境与人类活动交互场景 - truck(卡车): 工业及运输场景的车辆目标 - ungulate(有蹄类动物): 包括鹿、羊等草食性哺乳动物 - wolf(狼): 群体性捕食动物代表 标注格式: YOLO格式标注,包含归一化坐标的边界框及类别标签,可直接适配YOLOv5/v7/v8等主流检测框架。 数据特性: 涵盖航拍、地面监控等多视角数据,包含昼夜不同光照条件及复杂背景场景。 二、适用场景 野生动物保护监测: 支持构建自动识别森林/草原生态系统中濒危物种的监测系统,用于种群数量统计和栖息地研究。 农业与畜牧业管理: 检测农场周边的捕食动物(如狼、美洲狮),及时预警牲畜安全风险。 智能交通系统: 识别道路周边野生动物与运输车辆,为自动驾驶系统提供碰撞预警数据支持。 生态研究数据库: 提供7类典型生物与人类活动目标的标注数据,支撑生物多样性分析与人类活动影响研究。 安防监控增强: 适用于自然保护区监控系统,同时检测可疑人员(person)与车辆(truck)的非法闯入。 三、数据集优势 多场景覆盖: 包含森林、公路、山地等多类型场景,覆盖从独居动物(cougar)到群体生物(wolf)的检测需求。 类别平衡设计: 7个类别经专业数据采样,避免长尾分布问题,包含: - 3类哺乳动物捕食者(bear/cougar/wolf) - 2类环境指示物种(bird/ung
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值