多模态大模型(Multimodal Large Language Model,MLLM) 总结

梳理了近期比较有代表性的MLLM, 推荐有基础后再阅读

目前的MLLM基本组成有三部分, Visual Backbone, V-L Adapter, LLM


大多数MLLM基本在LLM内部没有什么变化, Visual Encoder基本也用的CLIP的Vision Encoder, 主要区别在于Adapter上。

Flamingo

论文: Flamingo: a Visual Language Model for Few-Shot Learning. Flamingo代表了在LLM主干中加入Cross Attention从而用视觉增强文本表示的一派.

Flamingo 将视觉信息融入 LLM 的方式是在 LM Block 的主干上串行的加入一个用 Cross Attention 增强文本表示的模块,从而让文本表示中能融入视觉信息

作者在每个 LM Block 前面加上了一个 Gated Cross - Attention Block. 以 Language 为 Query, Vision input 为 Key 和 Value, 并用 Tanh 和残差做一下过滤,决定视觉增强的文本表示流通率的门控系数为全 0 初始化,跟 LoRA 有点类似.

比较有趣

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值