多模态MLLM都是怎么实现的(1)

 好多读者私信说想了解一下多模态的内容,我这人最大的优点就是听劝...

       好,那么好

Image

, 今天开始陆续写点多模态内容,没想好是不是要写个专栏(因为我之前挖的坑太多...),然而还是开了,今天先写点基础做个seed

       有想了解一下多模态扫盲的读者,可以自己先看看这篇论文

       2311.13165.pdf (arxiv.org)

       说是论文其实没什么干货,当多模态介绍看看是可以的(BTW现在感觉在aixV上水论文真的容易,我越来越想找人一起水一篇了,有兴趣的请联系我)

       我先按照我自己的思路给大家过一下

      MLLM(Multimodal Large Language Models)即多模态的大语言模型,顾名思义,这个还是以大语言模型为基础的

       那怎么个多模法呢?从我这总结主要是2点:

1-Encoder,decoder的多模

2-多模融合

       

       我们从一个简单的多模态CLIP讲起

       CLIP也是OPENAI的模型,现在也被广泛的应用于各种多模态的业务场景里,本身是开源的,又是挺重要的分类器,你们使用的多模态模型或多或少都用了它的代码和概念

       我们先看它是怎么实现的,看下图

  • 44
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值