SOTA多模态大模型!13个开源模型汇总,附论文和代码_开源多模态大模型

近年来,多模态大模型(Multimodal Large Language Models, MLLMs)在人工智能领域取得了显著的进展,特别是在自然语言处理、计算机视觉和多模态理解方面。这些模型能够理解和生成多种类型的数据,如文本、图像、音频和视频,为多模态学习和应用提供了强大的工具。

今天给大家汇总了13个开源多模态大模型,这些模型在各自的领域中刷新了多个SOTA记录,每个模型都将附上相关的论文和代码,一起看看多模态大模型的最新研究成果吧!

论文PDF和开源代码都整理好了

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取🆓
在这里插入图片描述

架构和创新

1、NExT-GPT: Any-to-Any Multimodal LLM(ICLR 2024)

NExT-GPT:任意对任意多模态 LLM

简述:本文提出了通用任意对任意MM-LLM系统NExT-GPT,该系统将LLM与多模态适配器和不同解码器连接,使NExT-GPT能感知输入并以任意组合生成文本、图像、视频和音频输出。利用现有高性能编码器和解码器,NExT-GPT仅需少量参数(1%)进行调优,有利于低成本训练和扩展。此外,研究人员引入模态切换指令调优(MosIT),并整理高质量数据集,使NExT-GPT具备复杂跨模态语义理解和内容生成能力。

2、DreamLLM: Synergistic Multimodal Comprehension and Creation(ICLR 2024)

DreamLLM:协同多模态理解与创造

简述:本文提出了DreamLLM,这是一个学习框架,它首先实现了多功能多模态大型语言模型(MLLM),该模型强调了多模态理解和创作之间的协同作用。DreamLLM 通过直接在原始多模态空间中采样来生成语言和图像,避免了外部特征提取器的局限性。此外,它能够生成原始交错文档,包括文本、图像和非结构化布局。DreamLLM是首个能生成自由格式交错内容的MLLM,实验证明,它作为零样本多模态通才表现出色,从增强的学习协同作用中获益。

3、Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization(ICLR 2024)

具有动态离散视觉标记化的 LLM 统一语言视觉预训练

简述:本文提出了一种新的多模态大模型LaVIT,它通过将视觉内容转换为可被语言模型处理的离散标记,实现了视觉和语言数据的统一处理。这种方法打破了传统方法中将视觉输入仅作为提示的局限性,使LaVIT能够无差别地处理图像和文本,提高了模型在视觉语言任务中的性能。实验结果表明,LaVIT在处理大规模视觉语言任务方面优于现有模型。

4、MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

MoE-LLaVA:大型视觉语言模型专家组合

简述:本文提出了一种名为MoE-tuning的新的大型视觉语言模型(LVLM)训练策略,该策略构建了一个参数数量多但计算成本恒定的稀疏模型,解决了多模态学习和模型稀疏性相关的性能下降问题。还提出了MoE-LLaVA框架,一种基于MoE的稀疏LVLM架构,它在部署期间只激活部分专家,从而减少了计算成本。实验表明,MoE-LLaVA在视觉理解方面表现出色,并减少了模型输出的幻觉。MoE-LLaVA使用30亿个稀疏激活的参数,在各种视觉理解数据集上性能与LLaVA-1.5-7B相当,甚至在某些基准测试中超过了LLaVA-1.5-13B。

5、LEGO:Language Enhanced Multi-modal Grounding Model

语言增强型多模态接地模型

简述:现有的多模态模型重点捕捉每个模态内的全局信息,但忽视

### 不同开源视觉大模型的比较 #### OpenCV OpenCV 是一个广泛使用的计算机视觉库,旨在为计算机视觉应用提供通用基础设施并加速机器感知技术在商业产品中的应用。该库拥有超过2500个优化算法,涵盖了经典前沿的计算机视觉及机器学习算法[^1]。 #### AutoRT 数据集特性 AutoRT 的数据展示了更高的视觉多样性,尤其是在更为多样的环境下运行时表现尤为明显。具体来说,在图5中展示的是对AutoRT视觉多样性的可视化分析,表明远程操作(Teleop)数据的效果最好,因为这些数据远离先前的数据分布,具有更大的距离权重[^2]。 #### 深度强化学习框架下的视觉模型 深度强化学习近年来已经成功应用于多个领域,包括但不限于电子游戏、棋类游戏以及连续控制等问题。在此背景下发展起来的一些视觉模型不仅依赖于深度神经网络的强大能力来处理图像识别任务,还结合了强化学习的思想来进行决策制定。例如,某些工作提出了新的后继表示架构,减少了参数数量从而促进了大型动作空间内的模型收敛,并允许通过模仿学习预训练后再用RL进行微调的方式提高性能[^3]。 #### 预训练抓取模型的应用 对于特定用途机器人而言,预先训练好的抓取模型可以直接用于移动操纵场景下开放词汇表范围内的物体抓取任务,无需额外训练或调整即可实现即插即用的功能扩展。这类预训练模型通常是在大量数据基础上构建而成,具备良好的泛化能力适应性[^4]。 综上所述,不同类型的开源视觉大模型各有侧重:有的专注于基础功能的支持服务;有的则强调环境交互过程中的自适应性灵活性;还有些则是为了满足特定应用场景的需求而设计开发出来的专用工具包。选择合适的模型取决于具体的项目需求技术背景考量因素。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值