多模态大语言模型和 Apple 的 MM1

lichunericli

已于 2024-05-03 03:32:58 修改

阅读量1.4k

点赞数 15

分类专栏： Multi-Modal 文章标签：人工智能自然语言处理语言模型

于 2024-05-03 03:27:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lichunericli/article/details/138406167

版权

本文介绍了苹果公司的MM1模型，该模型结合了视觉转换器、视觉语言连接器和大型语言模型，用于处理多模态输入。通过消融研究，探讨了图像编码器（如CLIP和AIM）、视觉连接器的设计以及预训练数据的影响，揭示了多模态语言模型在图像和文本融合方面的潜力。

摘要由CSDN通过智能技术生成

原文地址：multimodal-large-language-models-apples-mm1

2024 年 4 月 13 日

抽象是计算机科学中最关键的概念之一，具有一些最强大的影响。从简单的角度来看，抽象就是将某一事物应用于多种不同情况的能力。例如，如果你创造了一种方法，可以在工厂中成功地根据苹果的大小进行分类，那么你的解决方案也可以抽象为以同样的方式对橘子或桃子进行分类。这样，通过抽象，一个非常强大的解决方案就能从根本上影响世界的多个部分。

虽然大型语言模型（Large Language Models）在以文本作为输入时的推理能力非常出色，但最近我们已经能够对其输入进行抽象，使其能够对图像和声音进行推理。

下面这篇文章将介绍苹果公司 MM1 论文中的架构删减，以及他们在构建多模态大型语言模型（MLLM）时的研究成果。

抽象LLM型输入

大型语言模型背后的架构可以追溯到 2017 年的论文《Attention is All You Need》，其中介绍了 Transformer 架构。

本文展示了如何将人类语言转化为神经网络可以处理的标记（在该论文中，处理为不同的语言）

从图中可以看到，我们很早就进行了转换，将输入转换为标记（嵌入部分）。然而，只有文本数据才能被映射为标记，这并没有内在的原因。因此，该领域开始尝试将其他类型的数据映射为标记。

MM1 架构基础

最低0.47元/天解锁文章

关注

15
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。