【MLLM阅读笔记-9】KOSMOS-2精读，多模态大模型目标检测：Grounding Multimodal Large Language Models to the World

同屿Firmirin

已于 2024-08-30 17:25:31 修改

阅读量1.5k

点赞数 25

分类专栏：多模态大模型文章标签：笔记目标检测语言模型 AIGC MLLM 多模态大模型

于 2024-08-30 17:24:40 首次发布

本文链接：https://blog.csdn.net/Mugi_jiang/article/details/141393793

版权

多模态大模型专栏收录该内容

15 篇文章

订阅专栏

论文标题：
KOSMOS-2: Grounding Multimodal Large Language Models to the World
GitHub：
https://aka.ms/GeneralAI

实战教程：
http://t.csdnimg.cn/Y767r

需要部署教程的话在评论区提，作者会更的。

keypoints

强调grounding能力的多模态大模型。
构建了大规模的定位图文对数据集GRIT。
能用于各种定位相关的下游任务。
并非通用MLLM，没有做MME等基准的实验，可以视为一个可对话的OVD检测模型，带caption功能。

精读

1. background&motivation

先强调了一下grounding能力的重要性和应用。然后直接开始介绍本篇工作。模型支持(1) visual grounding, (2)-(3) grounded question answering, (4)-(6) multimodal referring via bounding boxes, and (7) grounded image captioning.等功能：
在这里插入图片描述

2. Construction of Web-Scale Grounded Image-Text Pairs (GRIT)

基于COYO-700M和LAION-2B的子集构建，一个大规模的Grounded Image-Text pairs数据集。数据集构建的pieline主要包括两步：
在这里插入图片描述

Step-1: Generating noun-chunk-bounding-box pairs

如图所示，对于一个图文对，使用spaCy（一个预训练好的detector）提取文本中的noun chunks，并和图像的区域相关联。再淘汰那些抽象的描述。
再用预训练好的grounding model (e.g., GLIP）检测noun chunks对应的bbox。
用非极大值抑制算法去除与其他词具有高重叠的边界框，即使它们不属于同一个noun chunk块。保留预测置信度分数高于 0.65 的noun chunk-bbox对。没有边界框的对会被丢弃。

Step-2: Producing referring-expression-bounding-box pairs

为了使模型具有建立复杂语言描述的能力，我们将名词块（noun chunks）扩展为指代表达（referring expressions）。具体来说，我们使用空间空间来获取句子的依赖关系。然后，我们通过递归地遍历依赖树中的子块并将子标记与名词块连接起来，将名词块扩展为引用表达式。我们不用连词来扩展名词块。对于没有子标记的名词块，我们将它们保留到下一个过程。在图3所示的示例中，名词块“a dog”可以扩展为“a dog In a field of flowers”，名词块“a field”可以扩展为“a field of flowers”。

进一步，只保留不包含在其他语句中的引用表达式或名词块。如图3所示，我们保留了引用表达式“a dog in a field of flowers”，去掉了“flowers”和“a field of flowers”(因为它是由“a dog in a field of flowers”所包含)。将名词块(‘a dog’)的边界框分配给相应生成的引用表达式(‘a dog in a field of flowers’)。

最后的数据集包含大约91M的图像、115M的文本和137M的关联边界框。

3.KOSMOS-2: A Grounded Multimodal Large Language Model

和KOSMOS-1比主要就是增加了grounding能力。
为了表示坐标框，使用了特殊字符，将连续的坐标离散成一系列位置标记，以统一的方式进行编码。

3.1 Grounded Input Representations

给定一个文本描述和其对应的bbox，首先将边界框的连续坐标转换为离散位置标记序列[引了这篇的方法：Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, and Geo rey E. Hinton. Pix2seq: A language modeling framework for object detection.]。

具体的：对于宽度为W、高度为H的图像，我们将宽度和高度均匀地分成P段。得到P × P个区域，每个区域包含(W/P) × (H/P)个像素。对于每个区域，使用一个位置标记来表示该区域内的坐标。我们使用每个区域的中心像素坐标来确定图像上的边界框。总共引入了P × P个位置标记，这些标记被添加到单词词表中，以实现与文本的统一建模。

每个bbox原本由左上角坐标和右下角坐标表示，这个两个点会被分别替换成一个离散的位置token：和，再用token围起来，得到：“”.如果一个描述关联了多个bbox，则用把这些box连接，也就是：“…”.

每个描述(text span)也需要用特殊token包起来：“

text span

”

每个完整的representation也需要用token包起来，最后每个representation就是这样：
在这里插入图片描述