On Speculative Decoding for Multimodal Large Language Models

本文是LLM系列文章,针对《On Speculative Decoding for Multimodal Large Language Models》的翻译。

多模态大型语言模型的推测解码

摘要

多模态大型语言模型(MLLM)的推理速度很慢,因为它们的大型语言模型主干受到内存带宽瓶颈的影响,并自动回归生成token。本文探讨了推测解码在提高MLLM推理效率方面的应用,特别是LLaVA 7B模型。我们证明,仅使用语言的模型可以作为LLaVA 7B推测解码的良好草稿模型,绕过了草稿模型对图像标记及其相关处理组件的需求。我们在三个不同任务上的实验表明,使用我们从头开始训练的115M参数语言模型,推测解码可以实现高达2.37倍的内存限制加速。此外,我们引入了一个紧凑的LLaVA草稿模型,其中包含一个图像适配器,该模型在图像字幕方面显示了边际性能提升,同时在其他任务中保持了可比的结果。

1 引言

2 背景

3 SPD用于MLLMs

4 实验

5 结论

在本文中,我们首次尝试在使用多模态大型语言模型时使用推测解码来加速推理,特别是在图像文本域。我们表明,使用纯文本草稿模型比使用利用图像特征的草稿模型具有更高的性能。我们对不同的视觉问答任务进行了各种实验,重点是生成更高数量的输出标记:开放式文本生成和使用不同草稿模型(纯文本和图像文本)进行推理的文本生成。对于纯文本草稿模型,我们实现了高达2.37倍的显著加速,对于图像-文本草稿模型实现了边际更好的加速,实证表明了将SPD用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值