大视觉语言模型(LVLM)通常将图像编码为固定数量的视觉令牌,并使用语言模型处理这些令牌。尽管LVLM性能强劲,但在适应不同计算约束方面仍面临挑战。受到俄罗斯套娃表示学习(Matryoshka Representation Learning)启发,本文引入了俄罗斯套娃查询Transformer(Matryoshka Query Transformer),它能够在推理过程中将图像编码为m个视觉令牌, m m m 可以是任意数字,最大为预定义的最大值。这是通过使用具有M个潜在查询令牌的查询Transformer来压缩视觉嵌入实现的。在每个训练周期,随机采样 m ≤ M m\leq M m≤M 潜在查询令牌并只使用前m令牌训练模型并丢弃剩下的。将MQT与LLaVA组合,只训练单个模型一次,与为每个数量令牌训练独立模型相比,可以灵活且大幅减少视觉令牌数量与推理时间,同时保持相近或更好的性能。
Matryoshka Query Transformer
Matryoshka Representation Learning
MRL包含使用嵌套的维度训练模型以学习多种粒度的表示并根据计算约束实现自适应部署。MRL定义了一组又相同输入和输出空间的模型 f 1 , f 2 , … , f M f_{1},f_{2},\ldots,f_{M} f1,f2,…,fM 但有增长隐藏维度。
Matryoshka表示 f m f_{m} fm 的参数包含在 f m + 1 f_{m+1} fm+1 中。例如Matformer: Nested transformer for elastic in