量产VLM是怎么工作的?聊聊DriveVLM和自动驾驶大模型~

国内端到端的技术路线已经明确:就是端到端+大模型!据自动驾驶之心了解,除了理想,像长安/小鹏都宣称大模型上车了。智能座舱和具身智能这块也是当下非常火爆的方向。未来大模型除了指导快系统外,像数据挖掘、标注等等应该都值得进一步探索。

拼团优惠立减130!

62d2d867a1e10fb58d411ee56b833202.png

这里也推荐下平台最新的多模态大模型课程,课程从通用多模态大模型,到大模型微调,最终在聚焦在端到端自动驾驶多模态大模型,基本上面试的东西课程里面都有介绍。课程大纲如下:

9a54140eec0801de65a76cd554d64da2.png


课程内容一览

第一章:多模态大模型介绍

第一章主要介绍多模态大模型的基础概念,在整体上帮助同学们了解多模态大模型,打开大模型之路的大门。老师从多模态算法的概念出发,延伸到多模态大模型的结构&训练范式及公开数据集的介绍。在整体上对多模态大模型有一定了解后,我们会进一步聊聊实际的应用场景,让大家对未来可能从事的工作方向和工作内容有一定的了解,最后老师会介绍咱们课程的整体框架及预期的实战学习成果。

77d23b1bb3ec65db2bdf25a9a96f05ce.jpeg

第二章:多模态大模型的基础模块

第二章正式进入多模态大模型的基础模块学习。老师会首先介绍多模态大模型的整体架构。模态编码器是什么?Input Projector有什么作用?LLM Backbone是什么?Output Projector又用来做什么?最后的Modality Generator又如何应用到具体的模态生成?在这一章都会得到解答!

a948d358a5b913fed6c13bb87ff1a545.png

第三章:通用多模态大模型

第三章聚焦于通用多模态大模型的讲解与实战。作为多模态大模型下游应用的基石,可以说没有通用多模态大模型的蓬勃发展,就不会有当下大模型应用百花齐放的局面。这一章节老师选取了五个算法展开详细介绍:涵盖了图文理解、视频理解、任意模态、轻量大模型以及实战-统一视觉任务大模型算法,即兼顾了学术界又兼顾了学术界。这一章老师将会带领同学们真正进入多模态大模型的世界。

6dfa6f44c0a712d21a86596f29dbf0a4.png

实际效果:

d72146a34d84a84c016e7ebbafff8c8b.jpeg

第四章:多模态大模型微调与强化学习

第四章则聚焦于业内应用最广泛的微调与强化学习技术。如果把通用多模态大模型比作大树的枝干,那么微调技术则是大模型开枝散叶的核心技术。这一章老师首先会做一个训练策略的概述,微调到底微调个啥?接下来则会进入六篇论文的精讲和实战,涉及Adapter、LoRA、QLoRA、Reward Model+PPO、KTO和实战算法DPO,这一章仍会兼顾学术界和工业界,学完这一章,你将有能力训练面向特定业务需求的多模态大模型。

9c174227c0f2956077693831b9808bff.png

第五章:多模态大模型在自动驾驶中的应用

在讲解完通用大模型和微调技术后,第五章则聚焦于多模态大模型在自动驾驶中的应用,尤其是在端到端自动驾驶中的应用。老师选取了五个最有代表性的算法一一讲解,其中包含理想端到端自动驾驶量产方案参考的算法DriveVLM!在这一章,大家将会掌握最前沿的端到端自动驾驶大模型,为后面就业和升学增添助力!

9b0f416d8e30aa4673f2b5a7a2b6ba65.png

第六章:多模态大模型求职专题

有了前面五个章节的技术积累,第六章咱们进入求职专题!这一章都是实打实老师工作多年的经验积累。业内有哪些公司?毕业应该从事什么方向?未来发展如何?多模态大模型当下应用的瓶颈在哪里?哪些问题是面试公司真正关心的?我们又该如何准备面试?在这一章你都讲得到答案!

d84f7108876c2c7e20049077da2365c3.png

适合人群

  • 高校研究人员与学生;

  • 初创企业技术团队;

  • 企业技术专家、骨干;

  • 想要转行从事大模型的同学;

讲师介绍

Sora老师,业内一线大厂高级算法工程师。研究方向多模态大语言模型、Agent等,从事座舱大模型落地和端到端大模型落地工作。在算法设计、模型部署、工程化落地上具有丰富经验,参与过国内、国外多个车厂与车型的poc及sop交付量产项目。

课程收获

  • 掌握通用大模型的核心理论与微调技术;

  • 掌握自动驾驶大模型在学术界&工业界的前沿算法;

  • 具备大模型微调&部署的实际能力;

  • 应用大模型解决实际问题的能力;

  • 提升科研&工作核心竞争力。

课程所需基础

  • 一定的深度学习与大模型基础;

  • 了解Transformer模型结构

  • Python和PyTorch基础,具备代码读写的能力;

  • 需要自备GPU,显存不低于12G;

课程咨询

拼团优惠立减130!

dacdfd7ef974ac549d910fbf1cac7efd.png

欢迎咨询小助理了解更多!

3fa66301683a8b84786cc70f5c0fd3b3.jpeg



版权声明

自动驾驶之心所有课程最终版权均归自动驾驶之心团队及旗下公司所属,我们强烈谴责非法盗录行为,对违法行为将第一时间寄出律师函。也欢迎同学们监督举报,对热心监督举报的同学,我们将予以重报!

投诉微信:AIDriver004(备注:盗版举报)

<think>嗯,用户现在想了解NMS-AP的计算方法以及它如何用于评估VLM(Vision-Language Models)大模型的训练效果。我需要先回顾一下之前关于NMS-AP的解释,再结合用户提供的引用内容来调整回答。 首先,用户之前的问题是关于NMS-AP的计算大模型评估中的应用,我之前已经详细解释了NMS-AP的步骤、YOLOv5的实现以及大模型评估的实践。现在用户再次提问,可能希望更深入或者结合VLM的具体应用。 用户提供的引用内容提到了几个数据集(LVIS、CODA)一些模型(VL-SAM、HOICLIP)在零样本评估中的表现,特别是AP指标的使用。例如,引用[1]提到在LVIS minival数据集上使用标准AP指标评估零样本能力,引用[2][3]讨论了在不同数据集上的mARAP结果,引用[4]则比较了HOICLIP的mAP提升。这些信息显示AP在评估VLM模型时的重要性,特别是在零样本或开放词汇场景下的应用。 我需要将NMS-AP的计算方法与VLM模型的特点结合起来。VLM通常结合视觉语言模态,可能在目标检测任务中需要处理开放词汇或罕见类别,这时候NMS-AP的作用可能更关键,因为它涉及到检测框的过滤精确度评估。例如,在零样本检测中,模型需要检测未在训练中见过的类别,这时候NMS的参数设置可能影响AP值,进而反映模型的泛化能力。 另外,用户提到的引用中,VL-SAMHOICLIP都展示了AP或mAP的提升,这说明在这些模型中,NMS-AP的计算可能用于验证模型改进的有效性。需要解释NMS-AP如何在这些场景下应用,比如如何调整NMS参数以适应开放集检测,或者如何处理多模态特征带来的检测框变化。 可能还需要考虑VLM特有的挑战,比如如何处理文本视觉特征的对齐,如何影响检测框的置信度NMS过程。例如,在HOICLIP中,知识迁移可能影响检测的精度,而NMS-AP可以衡量这种迁移是否有效。 此外,用户可能想知道在VLM训练中,如何利用NMS-AP进行调优,比如调整iou_thres或conf_thres来平衡精度召回,尤其是在处理罕见类别时。引用[3]提到VL-SAM在罕见类别上的表现,这可能涉及到NMS参数对AP的影响,比如更宽松的iou_thres可能保留更多罕见类别的检测框,从而提高召回但可能降低精度。 最后,需要将NMS-AP的计算步骤与VLM的具体评估流程结合起来,比如在零样本评估中,如何使用LVIS或COCO数据集,应用NMS后计算AP,以及如何解读结果来优化模型。可能需要提到多模态特征如何影响检测框的生成过滤,从而影响最终的AP值。</think>### 一、NMS-AP计算方法详解 NMS-AP(Non-Maximum Suppression Average Precision)是目标检测领域评估模型性能的核心指标,其计算过程紧密融合了非极大值抑制(NMS)处理流程。以下是关键步骤: #### 1. 检测后处理流程 $$ \text{原始预测框} \xrightarrow[\text{置信度排序}]{\text{降序排列}} \text{候选框} \xrightarrow[\text{IOU过滤}]{\text{NMS}(iou_{thres})} \text{有效检测} \xrightarrow[\text{匹配策略}]{\text{GT比对}} \text{TP/FP判定} $$ #### 2. 数学计算过程 - **PR曲线生成**:按置信度阈值滑动生成精确率-召回率对 $$ P = \frac{TP}{TP+FP},\quad R = \frac{TP}{TP+FN} $$ - **插值计算AP**(COCO标准): $$ AP = \frac{1}{101} \sum_{r\in\{0,0.01,...,1\}} P_{interp}(r) $$ 其中$P_{interp}(r)$为当前召回率$r$对应的最大精确率[^1] ### 二、VLM大模型评估的特殊性 #### 1. 多模态特征融合影响 在视觉-语言模型(如VL-SAM、HOICLIP)中,NMS处理需考虑: - **跨模态对齐**:文本引导的检测框置信度校准 - **开放集检测**:处理未见过类别的特征响应(参考CODA数据集实验[^2]) #### 2. 典型评估协议对比 | 评估模式 | 数据特点 | NMS-AP作用 | |----------------|---------------------------|--------------------------------| | 零样本检测 | LVIS minival数据集 | 衡量跨类别泛化能力[^1] | | 长尾分布检测 | COCO-LT子集 | 重点评估尾部类别AP | | 角落案例检测 | CODA数据集 | 验证NMS对模糊目标的鲁棒性[^2] | ### 三、VLM训练中的关键实践 #### 1. 参数优化策略 ```python # 典型VLM验证代码片段(以HOICLIP为例) def evaluate_vlm(model, val_loader): model.eval() with torch.no_grad(): for images, text_queries in val_loader: # 多模态特征融合 visual_feats = model.vision_encoder(images) # (B,C,H,W) text_feats = model.text_encoder(text_queries) # (N,D) # 跨模态检测头 pred_boxes, conf_scores = model.fusion_head(visual_feats, text_feats) # NMS参数动态调整 nms_boxes = batched_nms(pred_boxes, conf_scores, iou_threshold=0.5, text_specific=True) # 文本感知NMS # AP计算 ap_metrics.update(nms_boxes, gt_boxes) return ap_metrics.compute() ``` #### 2. 性能提升技巧 - **文本感知NMS**:根据文本embedding调整IOU阈值 - **置信度校准**:使用温度缩放平衡视觉-语言特征得分 - **多阶段过滤**: $$ \text{粗筛}(iou=0.7) \rightarrow \text{精筛}(iou=0.5) \rightarrow \text{跨模态验证} $$ ### 四、实验结果分析 根据HOICLIP论文数据[^4],VLM优化效果验证: ``` | 方法 | NF-UC mAP | UO稀有类mAP | |------------|-----------|-------------| | GEN-VLKT | 31.2 | 28.5 | | HOICLIP | 35.24 | 34.19 | ``` - **提升机制**:通过知识迁移增强跨模态对齐,使NMS阶段保留更多有效检测框 ### 五、挑战与解决方案 | 挑战类型 | 现象描述 | 解决方案 | |--------------------|------------------------------|------------------------------| | 模态不匹配 | 文本查询与视觉特征错位 | 引入对比学习损失[^3] | | 置信度偏差 | 语言先验导致分数膨胀 | 实施分数标准化 | | 密集目标漏检 | NMS过度抑制相似目标 | 采用soft-NMS策略 | --- ### 相关问题 1. 在多模态目标检测中,如何设计文本感知的NMS算法? 2. VLM模型训练时如何平衡视觉语言特征对AP指标的影响? 3. 零样本检测任务中NMS参数选择有哪些特殊考量? [^1]: 零样本评估方法参考LVIS数据集验证协议 [^2]: CODA数据集实验显示开放集检测的挑战性 [^3]: 跨模态对齐技术对检测性能的提升作用 [^4]: HOICLIP论文中的对比实验结果分析
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值