Nvidia 开源 NVLM-D-72B：视觉与文本任务中的全能高手

新加坡内哥谈技术

已于 2024-10-02 22:40:13 修改

阅读量212

点赞数 6

文章标签：人工智能语言模型自然语言处理大数据 chatgpt

于 2024-10-02 22:38:52 首次发布

本文链接：https://blog.csdn.net/2301_79342058/article/details/142686218

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

Nvidia 最近发布了一款强大的开源人工智能模型，挑战了 OpenAI 和谷歌等行业巨头的专有系统。全新推出的 NVLM 1.0 系列大型多模态语言模型，以 NVLM-D-72B 为首，拥有 720 亿参数，展现了卓越的视觉和语言任务处理能力，同时也增强了纯文本任务的表现。https://huggingface.co/nvidia/NVLM-D-72B

研究人员在论文中提到：“我们推出的 NVLM 1.0 系列，作为多模态前沿语言模型，达到了视觉语言任务的最新成果，媲美主流的专有模型（如 GPT-4o）和开放模型。”Nvidia 通过公开模型权重并承诺发布训练代码，打破了将先进 AI 系统封闭的行业惯例。这一举动为研究人员和开发者提供了前所未有的尖端技术访问权限。

在多项视觉与语言任务的基准测试中，NVLM-D 模型与 GPT-4、Claude 3.5 和 Llama 3-V 等 AI 巨头展开了激烈竞争，展现出其出色的性能。NVLM-D-72B 在处理复杂视觉和文本输入时表现出极强的适应性。研究人员展示了模型如何解读表情包、分析图片，并逐步解决数学问题的能力。

特别值得注意的是，NVLM-D-72B 在多模态训练后，纯文本任务的表现不降反升，关键文本基准测试的准确率平均提高了 4.3 个百分点。研究人员强调：“我们的 NVLM-D-1.0-72B 在文本专用的数学和编程测试中，表现显著优于其文本基座。”

AI 社群对 Nvidia 的开源举措反应热烈。一位 AI 研究员在社交媒体上表示：“哇！Nvidia 发布了一个 72B 参数的模型，它在数学和编程测试中几乎能与 Llama 3.1 的 405B 模型媲美，还具备视觉能力？”Nvidia 开放如此强大的模型，可能会加速整个 AI 领域的研究与开发，帮助中小型组织和独立研究人员更大程度地推动 AI 进步。