多模态MLLM都是怎么实现的(1)

本文介绍了多模态大语言模型(MLLM)的基本原理,以CLIP模型为例,阐述了多模融合的方法,包括文本-图像的Encoder设计和特征融合过程。CLIP模型在抽象图片的分类任务上展现出强大的泛化能力,但也有其局限性,如OCR表现不佳,无法处理某些新概念。后续将探讨更多相关算法和技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 好多读者私信说想了解一下多模态的内容,我这人最大的优点就是听劝...

       好,那么好

Image

, 今天开始陆续写点多模态内容,没想好是不是要写个专栏(因为我之前挖的坑太多...),然而还是开了,今天先写点基础做个seed

       有想了解一下多模态扫盲的读者,可以自己先看看这篇论文

       2311.13165.pdf (arxiv.org)

       说是论文其实没什么干货,当多模态介绍看看是可以的(BTW现在感觉在aixV上水论文真的容易,我越来越想找人一起水一篇了,有兴趣的请联系我)

       我先按照我自己的思路给大家过一下

      MLLM(Multimodal Large Language Models)即多模态的大语言模型,顾名思义,这个还是以大语言模型为基础的

       那怎么个多模法呢?从我这总结主要是2点:

1-Encoder,decoder的多模

2-多模融合

       

       我们从一个简单的多模态CLIP讲起

       CLIP也是OPENAI的模型,现在也被广泛的应用于各种多模态的业务场景里,本身是开源的,又是挺重要的分类器,你们使用的多模态模型或多或少都用了它的代码和概念

       我们先看它是怎么实现的,看下图<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值