【MLLM阅读笔记-9】KOSMOS-2精读,多模态大模型目标检测:Grounding Multimodal Large Language Models to the World

论文标题:
KOSMOS-2: Grounding Multimodal Large Language Models to the World
GitHub:
https://aka.ms/GeneralAI

实战教程:
http://t.csdnimg.cn/Y767r

需要部署教程的话在评论区提,作者会更的。

keypoints

强调grounding能力的多模态大模型。
构建了大规模的定位图文对数据集GRIT。
能用于各种定位相关的下游任务。
并非通用MLLM,没有做MME等基准的实验,可以视为一个可对话的OVD检测模型,带caption功能。

精读

1. background&motivation

先强调了一下grounding能力的重要性和应用。然后直接开始介绍本篇工作。模型支持(1) visual grounding, (2)-(3) grounded question answering, (4)-(6) multimodal referring via bounding boxes, and (7) grounded image captioning.等功能:
在这里插入图片描述

2. Construction of Web-Scale Grounded Image-Text Pairs (GRIT)

基于COYO-700M和LAION-2B的子集构建,一个大规模的Grounded Image-Text pairs数据集。数据集构建的pieline主要包括两步:
在这里插入图片描述

Step-1: Generating noun-chunk-bounding-box pairs

如图所示,对于一个图文对,使用spaCy(一个预训练好的detector)提取文本中的noun chunks,并和图像的区域相关联。再淘汰那些抽象的描述。
再用预训练好的grounding model (e.g., GLIP)检测noun chunks对应的bbox。
用非极大值抑制算法去除与其他词具有高重叠的边界框,即使它们不属于同一个noun chunk块。保留预测置信度分数高于 0.65 的noun chunk-bbox对。没有边界框的对会被丢弃。

Step-2: Producing referring-expression-bounding-box pairs

为了使模型具有建立复杂语言描述的能力,我们将名词块(noun chunks)扩展为指代表达(referring expressions)。具体来说,我们使用空间空间来获取句子的依赖关系。然后,我们通过递归地遍历依赖树中的子块并将子标记与名词块连接起来,将名词块扩展为引用表达式。我们不用连词来扩展名词块。对于没有子标记的名词块,我们将它们保留到下一个过程。在图3所示的示例中,名词块“a dog”可以扩展为“a dog In a field of flowers”,名词块“a field”可以扩展为“a field of flowers”。

进一步,只保留不包含在其他语句中的引用表达式或名词块。如图3所示,我们保留了引用表达式“a dog in a field of flowers”,去掉了“flowers”和“a field of flowers”(因为它是由“a dog in a field of flowers”所包含)。将名词块(‘a dog’)的边界框分配给相应生成的引用表达式(‘a dog in a field of flowers’)。

最后的数据集包含大约91M的图像、115M的文本和137M的关联边界框。

3.KOSMOS-2: A Grounded Multimodal Large Language Model

和KOSMOS-1比主要就是增加了grounding能力。
为了表示坐标框,使用了特殊字符,将连续的坐标离散成一系列位置标记,以统一的方式进行编码。

3.1 Grounded Input Representations

给定一个文本描述和其对应的bbox,首先将边界框的连续坐标转换为离散位置标记序列[引了这篇的方法:Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, and Geo rey E. Hinton. Pix2seq: A language modeling framework for object detection.]。

具体的:对于宽度为W、高度为H的图像,我们将宽度和高度均匀地分成P段。得到P × P个区域,每个区域包含(W/P) × (H/P)个像素。对于每个区域,使用一个位置标记来表示该区域内的坐标。我们使用每个区域的中心像素坐标来确定图像上的边界框。总共引入了P × P个位置标记,这些标记被添加到单词词表中,以实现与文本的统一建模。

每个bbox原本由左上角坐标和右下角坐标表示,这个两个点会被分别替换成一个离散的位置token:和,再用token围起来,得到:“”.如果一个描述关联了多个bbox,则用把这些box连接,也就是:“…”.

每个描述(text span)也需要用特殊token包起来:“

text span

每个完整的representation也需要用token包起来,最后每个representation就是这样:
在这里插入图片描述

3.2 Grounded Multimodal Large Language Models

与kosmos-1相比主要就是有了grounding和referring能力。除了通用的多模态数据,还添加了grounded图文对,使用这些数据训练时损失函数只考虑离散的位置标记。最后模型会用这些位置标记输出bbox。

3.3 Model Training

在grounded cation任务中加了token<grounding>用于提醒模型需要输出相应定位信息。
对一个224224的图像,将每77的小块定义为一个定位最小单位,每个小块分配两个离散定位token。这样词表里一共添加了32*32个token。

预训练设定:

在这里插入图片描述
在这里插入图片描述

训练数据:grounded image-text pairs, monomodal text corpora, image-caption pairs, and interleaved image-text data

指令微调设定:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

训练数据:图文指令、纯文本指令、expression-bounding-box pairs、“

It

is” to ask the model to generate expressions according to its bounding boxes.

4.experiment

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 24
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值