多模态大模型_Ming__chen的博客-CSDN博客

多模态大模型

关注

文章平均质量分 84

关注数：文章数：15 文章阅读量：4458 文章收藏量：95

作者: Ming__chen

简单纯粹

展开

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

这种方法反映在后续的高质量图像生成框架中，例如DALLE 3和SORA，它们利用VLM的生成和理解能力来获取用于生成任务的更高质量的文本条件。，用于后续的 LLM 处理。这种设计允许在不扩展视觉标记数量的情况下(Q还是从低分辨率的图像来的，只是与K,V进行计算的时候计算量增加了，但是保持放入LLM的视觉的token数量不变)提取 HR 细节，保持细节丰富度和计算可行性之间的平衡。同时，对于基于推理的生成，在这项工作中使用文本来桥接 VLM 和扩散模型，因为没有发现基于嵌入的方法有明显的增益。

原创 2024-08-05 10:42:48 · 286 阅读 · 0 评论
TinyLLaVA: A Framework of Small-scale Large Multimodal Models

虽然不断扩大模型的容量能够提升模型对很多不同任务的解决能力，但训练庞大的模型需要很多的资源，如 Flamingo 为 80b，PaLM-E 为 562b，所以现在有很多 LLM 的模型也在降低模型参数量，降低到 7B 或 3B，但性能没有下降很多。当前的大语言模型的参数量太大了，作者想通过实验验证是否需要这么多的参数（于是做了巨多的消融实验），想尝试能不能让参数量小一点，还能达到相当的性能。证明了通过更好的训练组合方式和更高质量的数据，使用较小的 LMM 就能实现较大模型相当的性能。

原创 2024-08-05 10:41:47 · 260 阅读 · 0 评论
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

如果直接使用 ConvNeXt 来替换 ViT 的话也不太可行，因为 ConvNeXt 是在低分辨率数据上训练的，所以作者在训练模型的过程中会将ConvNeXt 的权重放开参与训练，而且比 ViT 取得了更好的效果。相反，保留大量的视觉标记避免了信息丢失，但牺牲了效率，挑战了llm的检索能力。，因此我们对其进行更新以bridge the gap（主流的方法一般都会冻结 vision encoder，但本文作者经过实验发现，更新 ConvNeXt 的参数能获得更好的效果，显著提升其在高分辨率任务中的性能）。

原创 2024-08-05 10:40:54 · 396 阅读 · 0 评论
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

将基于ConxNeXt-L的CLIP模型作为Image Encoder，将分辨率为 1024×1024 的图片作为输入，通过32倍下采样和pixel shuffle得到256个视觉token。和LLaVA一样，文中也是用了MLP作为Visual Projector，同时也是用了MLP作为Text Projector将LLM输出的[SEG]token对应的特征映射到视觉空间。本文提出了OMG-LLAVA，这是一个新颖而优雅的框架，结合了强大的像素级视觉理解与推理能力。表现出强大的基于视觉的对话和推理能力，

原创 2024-08-05 10:40:07 · 336 阅读 · 0 评论
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

与 SOTA 方法 LLaVA-1.5 相比，MoE-LLaVA-2.7B×4 展现了强大的图片理解能力，在 5 个 benchmark 上性能非常接近 LLaVA-1.5。MoE-LLAVA 仅在大约 3B 稀疏激活参数的情况下，在各种视觉理解数据集上表现出与 LLAAVA-1.5-7B 相当的性能，甚至在对象幻觉基准测试中甚至超过了 LLAVA-1.5-13B。当 top-k 个专家被激活时，其余的专家保持非活动状态，这种模型构成了具有无限可能的稀疏通路的 MoE-LLaVA。

原创 2024-08-05 10:38:11 · 201 阅读 · 0 评论
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

基于GPT-4的高质量指令微调数据集（GPT-4-based Instruction-following Data）（第二阶段使用，指令微调数据集），用OCR识别的结果以及图片的caption作为GPT-4的提示词，生成高质量指令微调的数据集。为了进一步清洗数据，文中。），同时基于CLIP-ViT-B/32模型输出的视觉特征，把50K图片聚为100个cluster，然后把14个cluster选了出来（包含丰富文本的图片，包括海报、封面、广告、教育资料以及商标等）。，每个对话都包含用于文本丰富图像的问答对。

原创 2024-08-05 10:36:39 · 301 阅读 · 0 评论
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

如后面要描述的实验所示，该阶段的 LLAVA-Med 模型不仅能够作为生物医学视觉助手与用户进行交互，而且在在完善的生物医学 VQA 数据集上进行评估时也取得了良好的零样本任务迁移性能（具体来说，该模型首先学习使用图-标题对对齐生物医学词汇，然后学习使用 GPT-4 生成的指令跟踪数据掌握开放式对话语义，广泛模仿外行者如何逐渐获得生物医学知识。我们的实证研究验证了特定领域指令调整的有效性，并揭示了将多模态会话助手适应high-value verticals的最佳实践和有趣的发现。，然后使用一种新颖的。

原创 2024-08-05 10:35:35 · 570 阅读 · 0 评论
StableLLaVA：Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data

现有的方法依靠从基准数据集派生的注释来构建用于训练目的的图像对话数据集，类似于llm中的指令调优。与现有的策略相比，我们的方法独特地结合了图像和对话生成，有效地解决了基准数据集中发现的限制。我们使用 ChatGPT 和文本到图像生成模型来合成各种形式的视觉指令调整数据，例如多轮对话数据、多图像推理数据和异常检测数据。，利用 ChatGPT 和文本到图像生成模型的能力来生成具有不同图像内容的不同且可控的数据集。凭借我们的双生成方法的良好结果，前向思考数据收集技术有望在 LLM 研究的未来发挥重要作用。

原创 2024-08-05 10:34:23 · 176 阅读 · 0 评论
LLaVA 1.5：Improved Baselines with Visual Instruction Tuning

Vision Encoder: 输入图像分辨率由224增大为336，使用CLIP ViT-L/336px，对图像细节理解能力更强更高质量的数据：真所谓 Data is All you need!扩展到高分辨率图像输入。我们表明，LLAVA 的架构通过简单地将图像划分为网格并保持其数据效率，在扩展到更高的分辨率方面是通用的；LLM模型：LLM语言模型升级为Vicuna v1.5 13B，语言模型参数量更大，效果更好。例如，对长格式语言推理的训练以及较短的视觉推理可以提高模型对多模态问题的写作能力。

原创 2024-08-05 10:33:56 · 258 阅读 · 0 评论
LLaVA 1.0：Visual Instruction Tuning

从COCO test2017中随机抽取了30张图片，使用同样的数据生成流水线生成三类问题，共生成90个问题，加上图片的caption和bounding boxes，去问GPT-4和LLaVA。训练了 LLM 的部分，让其可以吸收 GPT-4 传入的强大的理解能力因为 BLIP-2 只训练了 Q-former。特征对齐的预训练：在 CC-595K 上预训练，仅更新投影矩阵，使图像特征与预训练的 LLM 词嵌入对齐。使用了 GPT-4 生成的数据，用于做 finetune，带来了更强的理解能力。

原创 2024-08-05 10:32:23 · 180 阅读 · 0 评论
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

进一步，冻结image encoder和LLM的参数，将Instruction文本分别加入到Q-Former输入端和LLM的输入端，训练Q-Former参数，具体的交互形式见上面的流程解读。这样的好处在于对于同一张图片，根据不同的instruction，我们可以得到基于instruction偏好更强的视觉特征，同时对应于两个不一样的图片，基于instruction内嵌的通用知识，可以使得模型有更好的知识迁移效果。另外，ALBEF可以看成是BLIP的前传，同样和三者的联系很深。作者主要提出了两点贡献。

原创 2024-08-05 10:31:31 · 402 阅读 · 0 评论
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language M

具体来说，Text Transformer的文本嵌入是 [CLS] 标记的输出嵌入，而Query嵌入则包含多个输出嵌入（应该等于learned Queries的数量），因此首先计算每个Query输嵌入与文本嵌入之间的相似度，然后选择最高的一个作为图像-文本相似度。由于 Q-Former 已经过预训练，可以提取包含语言信息的视觉表示，因此它可以有效地充当信息瓶颈，将最有用的信息提供给 LLM，同时删除不相关的视觉信息，减轻了 LLM 学习视觉语言对齐的负担。，我们执行视觉语言表示学习，它。

原创 2024-08-05 10:30:33 · 559 阅读 · 0 评论
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Gen

最后，我们将过滤后的图像-文本配对与人工标注的配对结合起来，形成一个新的数据集，用于预训练一个新的模型。另一个是过滤器，用于去除原始网络文本和合成文本中的噪声字幕。2. 将预训练MED微调为Captioner和Filter两个模块 3. 使用微调后的Captioner对训练数据生成一系列的字幕 4. 把这些生成的字幕和原始网络文本通过预训练的 Filter 过滤，删除噪声文本字幕 5. 最后将。我们对采用不同参数共享策略预训练的模型进行了评估，其中预训练是在包含网络文本的 1400 万张图像上进行的。

原创 2024-08-05 10:29:03 · 400 阅读 · 0 评论
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

当前的方法主要是将一个多模态的编码器 (比如视觉的 ViT) 和 LLM 相结合，使其能够处理各种模态的信息，并利用 LLM 强大的文本处理能力来产生有效的输出。AnyGPT 是一种 any-to-any 的多模态大语言模型，它可以处理多种模态数据，包括语音、文本、图像和音乐。评估结果表明，AnyGPT 作为通才多模态语言模型，在各种多模态理解和生成任务上实现了最先进的性能。同时，为了训练这种 any-to-any 的多模态大语言模型，作者构建了一个多模态数据集，是第一个大规模多模态指令数据集。

原创 2024-08-05 10:27:29 · 486 阅读 · 0 评论
DREAMLLM: SYNERGISTIC MULTIMODALCOMPREHENSION AND CREATION

其次，DREAMLLM 促进了原始、交错的文档的生成，对文本和图像内容进行建模，以及非结构化布局。一个特殊的** token预测在哪里生成图像**(其他论文也是这么用的，常见的做法，就是要预测在生成文本的过程中什么时候插入图像)。通俗解释就是，你让DREAMLLM帮你写一个故事，它不仅可以帮助完善故事，还可以同时生成与故事内容情节紧密相关的插图，一步到位。**实验：**DREAMLLM 是一种多功能的多模态通才，擅长零样本或上下文视觉语言理解和合成任务。多模态理解，文本条件图像合成，多模态联合创作与理解。

原创 2024-08-05 10:23:31 · 252 阅读 · 0 评论

多模态大模型

作者: Ming__chen

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

TinyLLaVA: A Framework of Small-scale Large Multimodal Models

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

StableLLaVA：Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data

LLaVA 1.5：Improved Baselines with Visual Instruction Tuning

LLaVA 1.0：Visual Instruction Tuning

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language M

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Gen

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

DREAMLLM: SYNERGISTIC MULTIMODALCOMPREHENSION AND CREATION