点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
扫码加入CVer知识星球,可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐!
Lenna:语言模型增强的推理检测助手
Lenna: Language Enhanced Reasoning Detection Assistant
Arxiv: http://arxiv.org/abs/2312.02433
Github: https://github.com/Meituan-AutoML/Lenna
最近,大语言模型(LLM)的快速发展极大地增强了其对自然语言的理解和生成能力。在这些大语言模型的助力下,多模态大语言模型(MLLM)在诸如检测、分割等感知任务,以及字幕生成、视觉问答等生成任务方面,实现了显著的性能提升。
指代表达理解任务(Referring expression comprehension,REC) 作为评估多模态大型模型自然语言理解和定位能力的关键任务,一直是许多研究的焦点。然而,模型的逻辑推断能力作为一项非常重要的理解人类隐性意图的能力,受到的关注较少。
为了促进 LLM 在感知任务中的推理能力和对世界知识的理解能力,该工作提出了一种语言增强的推理检测助手 Lenna。如图1所示,相比于其他方法,Lenna 能够在简单和可扩展的框架中结合基于 REC 和基于推理的检测。此外,Lenna 还构建了一个名为 ReasonDet 的基准数据集来定量测量 MLLM 进行逻辑推断并对意图目标进行检测的性能。Lenna 不仅具有低廉的训练成本,并且在 REC 和 ReasonDet 上优于以前的 MLLM。同时,ReasonDet 的可视化结果证实了 Lenna 在推理目标检测方面的一致性能力。
模型架构
Lenna(图2)通过巧妙地结合多模态大语言模型 LLaVA [1] 和开放集检测器 Grounding-DINO [2],并受 LISA [3] 启发使用特殊token <DET> 扩展原始 LLM 词汇表以表示对检测输出的需求,实现了一个端到端由大语言模型增强的推理检测助手。
首先,在接收到图像 和文本指令 后,MLLM产生文本响应 。
接着,提取与 <DET> 对应的嵌入表示 ,该表示富含与目标相关的语义及位置信息。同时,将图像 与目标描述(object caption, 对应图中输入文本的红色部分)输入检测器的Encoder(对应图中 Det Encoder),提取用于提取增强的图像特征 和文本特征 。
获取到 , , 后,这三者输入 MSQ(MLM 引导的 query 选取)模块(如图3所示)。该模块旨在结合交叉注意模块和相似度计算模块,促进基于 BERT 与 LLM 的特征之间的跨空间对齐以及不同模态之间的对齐。在交叉注意模块中,使用 作为 K, V 来激活增强图像特征 中的对应特征。在相似度计算模块中,类似于 Grounding-DINO,选择出与输入文本特征 相关性更大的特征,得到 。
最终, 被合并到解码器(对应图中Det Decoder)的每个文本交叉注意力层中,从而生成最终的位置pred。公式如下:
训练目标如下:
具体而言, 是自回归语言建模损失, 和 Grounding-DINO 一样使用 L1 loss 和 GIOU loss 进行边界框回归,并且使用对比学习损失进行分类,具体公式为:
数据构建
如图 4,Lenna 在目标检测、指代表达理解、推理检测、VQA 四种不同的数据类型上进行了训练。这四种数据集的构建,通过对齐两个多模态特征空间,能够更好地为模型的图文特征匹配赋能。其中,该工作基于像素级的 ReasonSeg 数据集为推理检测任务构建了名为 ReasonDet 的评测集。与 LISA 的 ReasonSeg 数据的分区类似,训练集包含 239 张图像和 1326 个文本,而验证集包含 200 张图像和 344 个文本。
实验结果
首先,在训练资源消耗上,如表1所示,与基于NVIDA A100 GPUs的工作相比,Lenna在其简单的模型架构和高效训练策略下产生了显着降低的训练成本。
其次,在定量实验上,为了保证比较的公正性,使用 IoU 为 0.5 的准确度指标在 RefCOCO、RefCOCO+ 和 RefCOCOg 上评估所有方法。如表2所示。
ReasonDet 数据集上的定量结果如表 3 所示。为了确保公平比较, Lenna (w/o RD) 从训练数据集中排除了 ReasonDet 数据。结果表明,无论在训练中是否使用 ReasonDet 数据,Lenna 都显著优于其他方法。Lenna (w/o RD) 比在 SOTA 中性能最佳的 MiniGPT-v2 准确率高了 47.37%,Lenna 甚至超过 85.50%。这很好地证明Lenna 可以真正理解问题中的内容并完成精确定位。
最后,在定性实验上,图 5 和图 6 分别展示了 Lenna 和其他 VLM 模型在 REC 和推理检测任务上的效果对比。图5 体现了 Lenna 在理解复杂的语言信息并实现精确定位方面始终优胜其他模型。图 6 进一步表明 Lenna 在不同的难度级别推理场景中表现出优异的性能,例如长问题(第一行和第二行)和短问题(第三行和第四行)。
总结
Lenna,作为一个新颖的框架,利用大语言模型(LLM)的表征能力和世界知识来增强目标检测任务中的推理能力。Lenna 引入了一个独特的 <DET> token,以便在不丧失推理信息的情况下进行精确定位。Lenna 的不同之处在于其高效的训练和能够以低廉的额外成本扩展到各种任务的能力。其设计的简洁性使得快速适应和扩展成为可能,相较于之前的模型,在训练效率和多功能性方面展示出显著的改进。由于 Lenna 的训练效率和其广泛的应用潜力,希望能为未来的多模态大语言模型领域的研究和实际部署提供新的思路。
参考文献
Visual Instruction Tuning https://arxiv.org/pdf/2304.08485.pdf
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection https://arxiv.org/pdf/2303.05499.pdf
LISA: REASONING SEGMENTATION VIA LARGE LANGUAGE MODEL https://arxiv.org/pdf/2308.00692.pdf
CVPR / ICCV 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集
后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
计算机视觉和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看