超越现有数据集:CoVLA如何推动自动驾驶技术革新?
自动驾驶领域面临许多不可预见的场景,这要求系统具备复杂的推理和规划能力。虽然多模态大语言模型(MLLMs)为此提供了一个有希望的途径,但它们主要用于理解复杂的环境背景或生成高级驾驶指令,很少有研究将其应用扩展到端到端的路径规划。一个主要的研究瓶颈是缺乏包含视觉、语言和动作的大型注释数据集。为了解决这个问题,我们提出了CoVLA(全面视觉-语言-动作)数据集,这是一个包含超过80小时真实驾驶视频的广泛数据集。
原创
2024-09-03 19:33:53 ·
526 阅读 ·
0 评论