本文是LLM系列文章,针对《On Speculative Decoding for Multimodal Large Language Models》的翻译。
摘要
多模态大型语言模型(MLLM)的推理速度很慢,因为它们的大型语言模型主干受到内存带宽瓶颈的影响,并自动回归生成token。本文探讨了推测解码在提高MLLM推理效率方面的应用,特别是LLaVA 7B模型。我们证明,仅使用语言的模型可以作为LLaVA 7B推测解码的良好草稿模型,绕过了草稿模型对图像标记及其相关处理组件的需求。我们在三个不同任务上的实验表明,使用我们从头开始训练的115M参数语言模型,推测解码可以实现高达2.37倍的内存限制加速。此外,我们引入了一个紧凑的LLaVA草稿模型,其中包含一个图像适配器,该模型在图像字幕方面显示了边际性能提升,同时在其他任务中保持了可比的结果。
1 引言
2 背景
3 SPD用于MLLMs
4 实验
5 结论
在本文中,我们首次尝试在使用多模态大型语言模型时使用推测解码来加速推理,特别是在图像文本域。我们表明,使用纯文本草稿模型比使用利用图像特征的草稿模型具有更高的性能。我们对不同的视觉问答任务进行了各种实验,重点是生成更高数量的输出标记:开放式文本生成和使用不同草稿模型(纯文本和图像文本)进行推理的文本生成。对于纯文本草稿模型,我们实现了高达2.37倍的显著加速,对于图像-文本草稿模型实现了边际更好的加速,实证表明了将SPD用