解决长尾问题,BEV-CLIP:自动驾驶中复杂场景的多模态BEV检索方法

本文介绍了一种新的自动驾驶检索方法BEV-CLIP,它利用大型语言模型和知识图谱增强对复杂场景的BEV特征检索,实现在NuScenes数据集上的高精度。文章关注解决二维图像检索的局限性和提升文本表示的抽象特征理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

解决长尾问题,BEV-CLIP:自动驾驶中复杂场景的多模态BEV检索方法

image

理想汽车的工作,原文,BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving

链接:https://arxiv.org/pdf/2401.01065.pdf

自动驾驶中对复杂场景数据的检索需求正在增加,尤其是随着乘用车已经具备了在城市环境中导航的能力,必须解决长尾场景问题。同时,在已有的二维图像检索方法下,场景检索可能会出现一些问题,如缺乏全局特征表示和亚层次文本检索能力。

为了解决这些问题,作者提出了BEV-CLIP,这是第一种多模态BEV检索方法,它利用描述性文本作为输入来检索相应的场景。该方法利用大型语言模型(LLM)的语义特征提取能力,促进零样本检索大量文本描述,并结合知识图中的半结构化信息,提高语言嵌入的语义丰富性和多样性。实验结果表明在NuScenes数据集上,文本到BEV特征检索的准确率为87.66%。论文中的示例支持本文的检索方法也被证明在识别某些长尾场景方面是有效的!

本文旨在研究在自动驾驶场景中开发视觉文本检索系统的两个基本问题。

(1) 如何克服二维图像特征固有的局限性࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值