多模态MLLM都是怎么实现的（1）

周博洋K

于 2024-02-23 20:41:30 发布

阅读量1.8k

点赞数 44

文章标签：人工智能自然语言处理语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingsoftcloud/article/details/136263396

版权

本文介绍了多模态大语言模型（MLLM）的基本原理，以CLIP模型为例，阐述了多模融合的方法，包括文本-图像的Encoder设计和特征融合过程。CLIP模型在抽象图片的分类任务上展现出强大的泛化能力，但也有其局限性，如OCR表现不佳，无法处理某些新概念。后续将探讨更多相关算法和技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

好多读者私信说想了解一下多模态的内容，我这人最大的优点就是听劝...

好，那么好

, 今天开始陆续写点多模态内容，没想好是不是要写个专栏（因为我之前挖的坑太多...），然而还是开了，今天先写点基础做个seed

有想了解一下多模态扫盲的读者，可以自己先看看这篇论文

2311.13165.pdf (arxiv.org)

说是论文其实没什么干货，当多模态介绍看看是可以的（BTW现在感觉在aixV上水论文真的容易，我越来越想找人一起水一篇了，有兴趣的请联系我）

我先按照我自己的思路给大家过一下

MLLM（Multimodal Large Language Models）即多模态的大语言模型，顾名思义，这个还是以大语言模型为基础的

那怎么个多模法呢？从我这总结主要是2点：

1-Encoder，decoder的多模

2-多模融合

我们从一个简单的多模态CLIP讲起

CLIP也是OPENAI的模型，现在也被广泛的应用于各种多模态的业务场景里，本身是开源的，又是挺重要的分类器，你们使用的多模态模型或多或少都用了它的代码和概念

我们先看它是怎么实现的，看下图<

最低0.47元/天解锁文章

博客等级

码龄8年

132
原创

2580
点赞

2199
收藏

1804
粉丝

关注

私信

热门文章

分类专栏

Gemini 1篇

最新评论

精讲（但绝对讲明白）Deepseek的新论文SPCT
好zhaodemingzi: 请问大佬，SPCT在训练的每个阶段中对应数据集是什么样子呢？这样看还是有些抽象
英伟达的GPU(3)
姝姝CCC: 这个资料是从哪里来的英伟达好像给不同shape的都做了特定的优化分块逻辑有资料吗
详解MS的GraphRAG的实现流程
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Q-star计划的更多细节
CSDN-Ada助手: 恭喜你写的第20篇博客！看到你对Q-star计划的更多细节的探究，我感到非常兴奋。接下来，我希望你可以继续深入挖掘Q-star计划的相关信息，比如它的实施步骤、影响等等。当然，这只是我的建议，希望你可以在接下来的创作中持续保持谦虚的态度，不断进步。期待你的下一篇博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。