NVILA: Efficient Frontier Visual Language Models

本文是LLM系列文章,针对《NVILA: Efficient Frontier Visual Language Models》的翻译。

NVILA:高效的前沿视觉语言模型

摘要

近年来,视觉语言模型(VLMs)在准确性方面取得了重大进展。然而,它们的效率受到的关注要少得多。本文介绍了NVILA,这是一个开放式VLM系列,旨在优化效率和精度。在VILA的基础上,我们通过首先扩大空间和时间分辨率,然后压缩视觉token来改进其模型架构。这种“先缩放后压缩”的方法使NVILA能够高效地处理高分辨率图像和长视频。我们还进行了系统的调查,以提高NVILA从训练和微调到部署的整个生命周期的效率。NVILA在广泛的图像和视频基准测试中与许多领先的开放式和专有VLM的准确性相匹配或超越。同时,它将训练成本降低了4.5倍,将内存使用量微调了3.4倍,预填充延迟降低了1.6-2.2倍,解码延迟降低了1.2-2.8倍。我们很快就会提供我们的代码和模型,以促进可重复性。

1 引言

2 方法

3 实验

4 更多能力

5 相关工作

6 结论

本文介绍了NVILA,这是一个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值