Matryoshka Query Transformer for Large Vision-Language Models

大视觉语言模型(LVLM)通常将图像编码为固定数量的视觉令牌,并使用语言模型处理这些令牌。尽管LVLM性能强劲,但在适应不同计算约束方面仍面临挑战。受到俄罗斯套娃表示学习(Matryoshka Representation Learning)启发,本文引入了俄罗斯套娃查询Transformer(Matryoshka Query Transformer),它能够在推理过程中将图像编码为m个视觉令牌, m m m 可以是任意数字,最大为预定义的最大值。这是通过使用具有M个潜在查询令牌的查询Transformer来压缩视觉嵌入实现的。在每个训练周期,随机采样 m ≤ M m\leq M mM 潜在查询令牌并只使用前m令牌训练模型并丢弃剩下的。将MQT与LLaVA组合,只训练单个模型一次,与为每个数量令牌训练独立模型相比,可以灵活且大幅减少视觉令牌数量与推理时间,同时保持相近或更好的性能。

Matryoshka Query Transformer

Matryoshka Representation Learning

MRL包含使用嵌套的维度训练模型以学习多种粒度的表示并根据计算约束实现自适应部署。MRL定义了一组又相同输入和输出空间的模型 f 1 , f 2 , … , f M f_{1},f_{2},\ldots,f_{M} f1,f2,,fM 但有增长隐藏维度。

Matryoshka表示 f m f_{m} fm 的参数包含在 f m + 1 f_{m+1} fm+1 中。例如Matformer: Nested transformer for elastic in

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qgh1223

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值