三篇多模态大模型进展综述

最新推荐文章于 2024-06-26 21:45:49 发布

deardao

最新推荐文章于 2024-06-26 21:45:49 发布

阅读量708

点赞数 4

文章标签： AIGC

本文链接：https://blog.csdn.net/liangdaojun/article/details/138271119

版权

Modality Bridging 综述
多模态大型语言模型（MLLM）可实现基于图像撰写故事和无 OCR 的数学推理，在传统方法中很少见，这表明了通向通用人工智能的潜在路径。

通常人们会在 pair 数据上进行大规模（相对于 instruction tuning）的预训练，对齐数据集通常是图像文本对或自动语音识别（ASR）数据集，它们都包含文本。对齐预训练的常见方法是保持预训练模块（例如视觉编码器和 LLMs）冻结，并训练一个可学习的接口，本文调研了到近期位置不同的接口设计以及学习方法相关的文章。Ref

论文标题：
Flamingo: a Visual Language Model for Few-Shot Learning
论文链接：
https://arxiv.org/abs/2204.14198

多模态大语言模型综述

论文链接：
https://arxiv.org/pdf/2306.13549.pdf
项目链接（每日更新最新论文）：
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

相比于以往的多模态方法，例如以 CLIP 为代表的判别式，或以 OFA 为代表的生成式，新兴的 MLLM 展现出一些典型的特质：（1）模型大。MLLM 通常具有数十亿的参数量，更多的参数量带来更多的潜力；（2）新的训练范式。

为了激活巨大参数量的潜力，MLLM 采用了多模态预训练、多模态指令微调等新的训练范式，与之匹配的是相应的数据集构造方式和评测方法等。

在这两种特质的加持下，MLLM 涌现出一些以往多模态模型所不具备的能力，例如给定图片进行 OCR Free 的数学推理、给定图片进行故事创作和理解表情包的深层含义等。

本综述主要包括：

MLLM 的基础构成与相关概念，包括架构、训练策略、数据和评测；
MLLM 的拓展延伸，包括输入输出粒度、模态、语言和场景的支持；
MLLM 的相关研究课题，包括多模态幻觉、多模态上下文学习（Multimodal In-Context Learning，M-ICL）、多模态思维链（Multimodal Chain of Thought，M-CoT）、LLM 辅助的视觉推理（LLM-Aided Visual Reasoning，LAVR）。Ref
文本到图像Diffusion可控生成最新综述

论文链接：
https://arxiv.org/abs/2403.04279
代码链接：
https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models

Text-to-Image, T2I 引入了更多类型的条件来生成图像，具体方法包括：
Ref
在这里插入图片描述

deardao

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
三篇多模态大模型进展综述

MLLM 的相关研究课题，包括多模态幻觉、多模态上下文学习（Multimodal In-Context Learning，M-ICL）、多模态思维链（Multimodal Chain of Thought，M-CoT）、LLM 辅助的视觉推理（LLM-Aided Visual Reasoning，LAVR）。相比于以往的多模态方法，例如以 CLIP 为代表的判别式，或以 OFA 为代表的生成式，新兴的 MLLM 展现出一些典型的特质：（1）模型大。（2）新的训练范式。
复制链接

扫一扫