论文链接:https://arxiv.org/abs/2311.04257
以下内容仅为个人理解,一切以原文为准。
领域:多模态大语言模型; 图文模型
- Learnable Queries ( Q ∈ R k × d \mathcal{Q} \in \mathbb{R}^{k \times d} Q∈Rk×d): 固定的 k k k 个可学的queries;实验中 k = 64 k=64 k=64。
- Vision Encoder: 预训练的 ViT
- Visual Abstractor: 随机初始化;实验中六层; 数据增强与 BLIP-2 类似;结构为,
C i = Attn ( V i , [ I , V i ] , [ I , V i ] ) , V i + 1 = SwiGLU ( C i W 1 ) W 2 . \begin{aligned} C^i &= \text{Attn}(V^i, [I, V^i], [I, V^i]),\\ V^{i+1} &= \text{SwiGLU}(C^i W_1) W_2. \end{aligned} CiVi+1=Attn(Vi,[I,Vi],[I,Vi]),=SwiGLU(CiW1)W2. - Modality-Adaptive Module: 修改了attention结构;计算attention前,图像token与文本token分别乘不同权重;详见下式