本文是LLM系列文章,针对《NVILA: Efficient Frontier Visual Language Models》的翻译。
摘要
近年来,视觉语言模型(VLMs)在准确性方面取得了重大进展。然而,它们的效率受到的关注要少得多。本文介绍了NVILA,这是一个开放式VLM系列,旨在优化效率和精度。在VILA的基础上,我们通过首先扩大空间和时间分辨率,然后压缩视觉token来改进其模型架构。这种“先缩放后压缩”的方法使NVILA能够高效地处理高分辨率图像和长视频。我们还进行了系统的调查,以提高NVILA从训练和微调到部署的整个生命周期的效率。NVILA在广泛的图像和视频基准测试中与许多领先的开放式和专有VLM的准确性相匹配或超越。同时,它将训练成本降低了4.5倍,将内存使用量微调了3.4倍,预填充延迟降低了1.6-2.2倍,解码延迟降低了1.2-2.8倍。我们很快就会提供我们的代码和模型,以促进可重复性。
1 引言
2 方法
3 实验
4 更多能力
5 相关工作
6 结论
本文介绍了NVILA,这是一个