【论文小记】mPLUG-Owl2

论文链接:https://arxiv.org/abs/2311.04257

以下内容仅为个人理解,一切以原文为准。

Illustration of the mPLUG-OWl2
领域:多模态大语言模型; 图文模型

  • Learnable Queries ( Q ∈ R k × d \mathcal{Q} \in \mathbb{R}^{k \times d} QRk×d): 固定的 k k k 个可学的queries;实验中 k = 64 k=64 k=64
  • Vision Encoder: 预训练的 ViT
  • Visual Abstractor: 随机初始化;实验中六层; 数据增强与 BLIP-2 类似;结构为,
    C i = Attn ( V i , [ I , V i ] , [ I , V i ] ) , V i + 1 = SwiGLU ( C i W 1 ) W 2 . \begin{aligned} C^i &= \text{Attn}(V^i, [I, V^i], [I, V^i]),\\ V^{i+1} &= \text{SwiGLU}(C^i W_1) W_2. \end{aligned} CiVi+1=Attn(Vi,[I,Vi],[I,Vi]),=SwiGLU(CiW1)W2.
  • Modality-Adaptive Module: 修改了attention结构;计算attention前,图像token与文本token分别乘不同权重;详见下式
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值