DataWhale AI夏令营【从零入门多模态大模型数据合成】环境搭建与baseline跑通相关技术框架理解-CSDN博客

本文链接：https://blog.csdn.net/qq_73840026/article/details/141231406

文章目录

一、Mini-Gemini
- 1、Dual Vision Encoders
- 2、Patch Info Mining
二、TextVQA
三、MMBench
四、Data-juicer

一、Mini-Gemini

1、Dual Vision Encoders

Mini-Gemini的框架在概念上：利用双视觉编码器来提供低分辨率的和高分辨率的视觉嵌入；提出patch信息挖掘以在高分辨率区域和低分辨率视觉query之间进行patch-level挖掘；LLM用于将文本与图像结合起来，同时进行理解和生成。

在这里插入图片描述

高分辨率图像、低分辨率图像（高分辨率双线性插值而来），然后双编码器并行处理成多网格视觉嵌入。对于LR，使用CLIP vit，这样，N个视觉块之间的长程关系就可以很好地保留下来，以便后续在LLM中进行交互。对于HR，采用基于 CNN 的编码器进行自适应且高效的 HR 图像处理。使用 LAION 预训练 ConvNeXt作为 HR 视觉编码器。因此，可以通过将不同卷积阶段的特征上采样并concate到1/4输入尺度来获得HR特征图。

2、Patch Info Mining

为了维持 LLM 中最终visual tokens的数量以提高效率，将低分辨率LR的visual embedding作为query，高分辨率HR作为Key和Value，旨在从 HR visual embedding中检索相关视觉线索。Q 中的低分辨率块与 K 和 V 中相应的高分辨率子区域相关，包含 M^2 个像素级特征。
在这里插入图片描述

如图 3a 所示，该公式封装了合成和细化视觉线索的过程，从而生成增强的视觉标记 Tv，用于后续的 LLM 处理。它确保每个query的挖掘仅限于 HR 具有 M^2 个特征的相应子区域，从而保持效率。这种设计允许在不扩展视觉标记数量的情况下提取 HR 细节，保持细节丰富度和计算可行性之间的平衡。

二、TextVQA

数据集：28,408 张图像，45,336 个问题 ( 37,912 )，453,360 个答案 ( 26,263 )
训练集：21,953 张图像，34,602 个问题
验证集： 3,166 张图像， 5,000 个问题
测试集： 3,289 张图像， 5,734 个问题

数据来源：Open Images v3 dataset

每张图像 1-2 个问题，每个问题 10 个答案，问题的平均长度为 7.18 个单词，答案的平均长度为 1.58 个单词

问题的前四个单词的分布：
在这里插入图片描述

三、MMBench

MMBench，是一个针对大规模多模态模型的新型评估基准。随着视觉语言模型在感知和推理能力方面的显著进步，如何有效地评估这些模型成为了一个主要难题。传统基准如VQAv2和COCO Caption提供了定量性能测量，但在细粒度能力和鲁棒性评估指标方面存在不足。而像OwlEval这样的主观性基准虽然能够全面评价模型能力，但其可扩展性差且易受偏见影响。

MMBench设计了一套综合的评估流水线，包含两大核心元素：

一是精心构建的超越现有同类基准的数据集，该数据集包括2,974个经过细致挑选的问题，覆盖了20种不同类型的细粒度技能；
二是引入了创新的CircularEval策略，并结合使用ChatGPT技术来将模型生成的自由格式预测转化为预定义选项，以实现对模型预测的更可靠评估。
通过MMBench对14个知名视觉语言模型进行全面评估后发现，现有模型在多项选择题上的表现普遍不尽人意，大多数模型在MMBench测试集上面对最多4个选项的选择题时，Top-1准确率未达到50%，表明当前VLMs在应对不同提示下的预测一致性以及跨实例理解与逻辑推理等方面的能力有限。特别是跨实例理解和逻辑推理能力显得尤为薄弱，需要作为未来研究的重要方向加以改进。
在这里插入图片描述

四、Data-juicer

在AI领域，高质量的数据如同食材之于烹饪，是成就卓越模型的基石。今天，我们带您走进一个令人兴奋的开源项目——Data-Juicer。它不仅仅是一个数据处理工具，而是一站式的解决方案，专为当前和未来的大型语言模型（LLMs）精心设计，确保它们能够“食用”到更高品质、更丰富多元且易于“消化”的数据。
Data-Juicer，正如其名，它像是榨汁机一样，将复杂的数据原料转化为易于“吸收”的精华。该系统强大之处在于它针对多模态数据的处理，覆盖了文本、图像、音频甚至视频，为当今和未来多模态模型的发展提供了强有力的支持。
系统性与复用性
丰富的算子集合，覆盖广泛需求，无需从头编写代码。
数据反馈循环
通过沙盒实验室，提供数据-模型交互环境，加速迭代过程。
高效性能
并行处理能力和算法优化，确保处理大量数据时依然高效流畅。
全面的处理菜谱
预制的数据处理方案，适应不同的应用场景，加速模型训练准备。
自定义与扩展性强
支持用户根据具体需求开发自己的算子，保证工具的广泛适用性和前瞻性。