吴恩达团队新作！多模态再突破！无需微调快速适应新任务

最新推荐文章于 2024-10-01 20:17:55 发布

大靠山

最新推荐文章于 2024-10-01 20:17:55 发布

阅读量805

点赞数 20

文章标签：深度学习人工智能机器学习语言模型自然语言处理算法

本文链接：https://blog.csdn.net/m0_59235245/article/details/141902905

版权

重磅！吴恩达团队新作！多模态基础模型，在执行从少量样本到大量样本的上下文学习时，无需微调即可快速适应新任务，且性能提升38％！

实际上，多模态一直是热门，不管你是想快速发论文，还是想好就业，它都值得关注！一方面，GPT等终结了大多数NLP研究任务！而多模态具备的处理各种模态的信息的特点，更接近于人类处理信息的需求，成为未来的潜力方向！且目前还处于发展期，还不算卷！另一方面，该方向应用广泛，尤其是生成任务方面，落地机会多，不管大小厂都在推进，就业岗位多！

一.CNN时代的多模态

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

方法：

本文主要方法包括构建一个大规模的Transformer模型，该模型包含三个编码器：对象关系编码器、语言编码器和跨模态编码器。为了使模型能够连接视觉和语言语义，作者通过五种不同的代表性预训练任务对模型进行预训练，这些任务包括遮蔽语言建模、遮蔽对象预测、跨模态匹配和图像问答。预训练帮助模型学习模态内和跨模态的关系。在预训练参数的基础上进行微调后，模型在两个视觉问答数据集上达到了最先进的结果。

UNITER: UNiversal Image-TExt Representation Learning

方法：

主要方法介绍了UNITER模型，这是一个通过大规模预训练学习通用图像-文本表示的模型。该模型在四个图像-文本数据集上进行预训练，能够为多种视觉和语言任务提供联合多模态嵌入。预训练设计了四项任务：遮蔽语言建模、遮蔽区域建模、图像-文本匹配和词-区域对齐。与以往工作不同，UNITER在预训练任务中使用条件掩蔽，并引入了基于最优传输的WRA预训练任务，以显式鼓励词和图像区域之间在预训练期间的细粒度对齐。

二.VIT时代的多模态

Masked Autoencoders Are Scalable Vision Learners

方法：

本文提出了一种名为Masked Autoencoders 的自监督学习方法，用于计算机视觉任务。MAE的核心思想是通过对输入图像的随机部分进行掩盖，然后训练模型预测这些被掩盖的像素。该方法基于两个关键设计：首先，开发了一种不对称的编码器-解码器架构，其中编码器仅处理可见的图像块子集，而解码器则轻量级，可以从潜在表示和掩码标记重建原始图像；其次，发现对输入图像进行高比例的掩码处理，可以产生一个非平凡且有意义的自监督任务。结合这两个设计，MAE能够高效且有效地训练大型模型，加速训练过程，并提高准确性。

Learning Transferable Visual Models From Natural Language Supervision

方法：

本文介绍了一种通过自然语言监督学习可迁移视觉模型的方法。研究者们通过构建一个包含4亿张对的大型数据集，使用简单的预测图像和文本配对的任务来训练模型。这种方法称为对比语言-图像预训练，它联合训练了一个图像编码器和一个文本编码器，以预测图像和文本在一批训练样本中的正确配对。CLIP模型在预训练后，能够使用自然语言引用学习到的视觉概念，从而实现对下游任务的零样本迁移。

三.多模态与大模型

Many-Shot In-Context Learning in Multimodal Foundation Models

方法：

本文探讨了多模态基础模型在多示例情境学习中的表现，特别是从少示例到多示例情境学习的性能变化。研究者们评估了GPT-4o和Gemini 1.5 Pro这两个模型在10个涵盖不同领域和任务的数据集上的表现。研究发现，与少于100个示例的少示例情境学习相比，包含多达2000个多模态示例的多示例情境学习在所有数据集上都带来了显著的性能提升。

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

方法：

本文提出了BLIP-2，这是一种新颖且高效的视觉-语言预训练策略，它通过利用现成的、冻结的预训练图像编码器和大型语言模型来引导视觉-语言预训练。BLIP-2通过一个轻量级的查询转换器来弥合模态间的差距，该转换器通过两个阶段的预训练进行引导：第一阶段从冻结的图像编码器中引导视觉-语言表示学习；第二阶段从冻结的大型语言模型中引导视觉到语言的生成学习。BLIP-2在各种视觉-语言任务上实现了最先进的性能，尽管其可训练参数比现有方法显著减少。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述