三篇多模态大模型进展综述

  • Modality Bridging 综述
    多模态大型语言模型(MLLM)可实现基于图像撰写故事和无 OCR 的数学推理,在传统方法中很少见,这表明了通向通用人工智能的潜在路径。

通常人们会在 pair 数据上进行大规模(相对于 instruction tuning)的预训练,对齐数据集通常是图像文本对或自动语音识别(ASR)数据集,它们都包含文本。对齐预训练的常见方法是保持预训练模块(例如视觉编码器和 LLMs)冻结,并训练一个可学习的接口,本文调研了到近期位置不同的接口设计以及学习方法相关的文章。Ref

论文标题:
Flamingo: a Visual Language Model for Few-Shot Learning
论文链接:
https://arxiv.org/abs/2204.14198
  • 多模态大语言模型综述
论文链接:
https://arxiv.org/pdf/2306.13549.pdf
项目链接(每日更新最新论文):
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

相比于以往的多模态方法,例如以 CLIP 为代表的判别式,或以 OFA 为代表的生成式,新兴的 MLLM 展现出一些典型的特质:(1)模型大。MLLM 通常具有数十亿的参数量,更多的参数量带来更多的潜力;(2)新的训练范式。

为了激活巨大参数量的潜力,MLLM 采用了多模态预训练、多模态指令微调等新的训练范式,与之匹配的是相应的数据集构造方式和评测方法等。

在这两种特质的加持下,MLLM 涌现出一些以往多模态模型所不具备的能力,例如给定图片进行 OCR Free 的数学推理、给定图片进行故事创作和理解表情包的深层含义等。

本综述主要包括:

  • MLLM 的基础构成与相关概念,包括架构、训练策略、数据和评测;

  • MLLM 的拓展延伸,包括输入输出粒度、模态、语言和场景的支持;

  • MLLM 的相关研究课题,包括多模态幻觉、多模态上下文学习(Multimodal In-Context Learning,M-ICL)、多模态思维链(Multimodal Chain of Thought,M-CoT)、LLM 辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)。Ref

  • 文本到图像Diffusion可控生成最新综述

论文链接:
https://arxiv.org/abs/2403.04279
代码链接:
https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models

Text-to-Image, T2I 引入了更多类型的条件来生成图像,具体方法包括:
Ref
在这里插入图片描述

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
多模态图像融合算法是指将来自不同传感器或不同模态的图像信息进行融合,以得到更全面、更准确的图像信息。下面是多模态图像融合算法的综述: 1. 基于像素级融合的算法:这类算法将不同模态的图像进行像素级别的融合,常见的方法有加权平均、最大值、最小值等。这些方法简单直观,但无法处理不同模态之间的非线性关系。 2. 基于特征级融合的算法:这类算法将不同模态的图像提取出的特征进行融合,常见的方法有主成分分析(PCA)、小波变换、稀疏表示等。这些方法可以捕捉到不同模态之间的相关性,但可能会丢失一些细节信息。 3. 基于深度学习的算法:近年来,深度学习在多模态图像融合中取得了显著的进展。通过使用卷积神经网络(CNN)或生成对抗网络(GAN),可以实现端到端的多模态图像融合。这些方法可以自动学习到不同模态之间的映射关系,并生成高质量的融合图像。 4. 基于图像分割的算法:这类算法将不同模态的图像进行分割,然后将分割结果进行融合。常见的方法有基于区域生长、基于图割、基于图像分割网络等。这些方法可以保留更多的细节信息,但对图像分割的准确性要求较高。 5. 基于模型的算法:这类算法通过建立数学模型来描述不同模态之间的关系,并利用模型进行融合。常见的方法有贝叶斯理论、马尔可夫随机场等。这些方法可以充分利用先验知识,但需要对模型进行合理假设。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值