读论文CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

MhZhou0412

于 2024-09-29 19:27:59 发布

阅读量996

点赞数 26

文章标签：人工智能深度学习 python 论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54044964/article/details/142641916

版权

研究背景：在自动驾驶领域，多模态大语言模型的应用多限于理解复杂环境或生成高级指令，而少有涉及端到端路径规划，主要因缺乏包含视觉、语言和行动的大规模注释数据集。为解决此问题，本文提出了CoVLA数据集，含80小时真实驾驶视频，通过自动数据处理技术，匹配精确轨迹与自然语言描述，超越了现有数据集。研究利用CoVLA数据集，探索了多模态大语言模型在自动驾驶中的视觉、语言和动作处理能力，证实了模型在生成连贯输出方面的强大性能，展现了视觉-语言-动作模型在自动驾驶领域的应用潜力。

主要贡献：

介绍了CoVLA数据集，这是一个大规模数据集，提供了多种驾驶场景的轨迹目标，以及详细的逐帧情境描述。

提出了一种可扩展的方法，通过传感器融合准确估计轨迹，并自动生成关键驾驶信息的逐帧文本描述。

开发了CoVLA-Agent，这是一种基于CoVLA数据集的新型VLA模型，用于可解释的端到端自动驾驶。本文的模型展示了持续生成驾驶场景描述和预测轨迹的能力，为更可靠的自动驾驶铺平了道路。

数据集生成 pipeline 概述。

1.自动标注视频帧和传感器信号以生成轨迹和其他标签。

2.对视频帧应用自动描述生成，以生成行为和推理的描述。

视频帧（Video fram

最低0.47元/天解锁文章

博客等级

码龄4年

30
原创

381
点赞

282
收藏

143
粉丝

关注

私信

热门文章

最新评论

Virtual Sparse Convolution for Multimodal 3D Object Detection 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读 AlphaFold 2
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
读论文 ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments
MhZhou0412: 目前没有直接跑这个只做背景调研，我们做的不完全是这种的方向，所以只取了部分的需要

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。