讨论：单张4090能运行的最强开源大模型？

最新推荐文章于 2025-05-15 20:58:54 发布

斯文by累

最新推荐文章于 2025-05-15 20:58:54 发布

阅读量3.7k

点赞数 13

CC 4.0 BY-SA版权

分类专栏： AIGC 文章标签： llama 人工智能语言模型 ai

本文链接：https://blog.csdn.net/LiuSid7/article/details/142136205

AIGC 专栏收录该内容

14 篇文章

订阅专栏

Gemma2用最小参数量实现了超过三倍参数的模型能力，超过llama3 70B，特别中文翻译能力，比千问70B还要强。并且Gemma2 9B也非常出色，可以在6G显卡运行。不要迷信f16, 参数大才是王道，越大参数模型量化损失越小，宁可要32B的量化也不要14B的f16精度。

对于运行大型模型的最佳推理引擎，并非是llama.cpp或vllm，而是闲鱼。如果你考虑将4090显卡出售，无论换成哪种显卡，其性能都可能优于使用4090来运行大型模型。如果你追求性价比，可以选择购买两块RTX 3090 24G显卡。它们的48G显存虽然只能勉强支持llama 70B和qwen 72B的int4量化模型，但不适合处理过长的上下文。

如果你愿意更进一步，可以购买四块经过魔改的RTX 2080Ti 22G显卡。这88G的显存足以支持全精度的Yi-1.5-34B模型，或者在Qwen2-72B的量化模型中实现更长的上下文。如果你像我一样追求极致，可以选择购买八块Tesla P100 16G显卡。这些显卡的128G显存不仅能够运行int8量化的Qwen2-72B模型，还能利用HBM显存和张量并行技术，提供比单块4090 48G更快的性能（假设存在这样的型号）。

最后，让我们简要探讨一下GPU和CPU在处理大型模型时的区别。实际上，它们在推理速度上的差异并不显著。例如，使用12代i7 CPU运行7亿参数的模型，速度大约是每秒10个token，而使用2060 GPU可以达到每秒30个token，两者之间的差距并不大。

GPU的真正优势在于其对prompt的评估速度，也就是处理输入的速度。这与芯片的核心数量密切相关。CPU通常只有4核或8核，而GPU则拥有数千个核心，例如4090拥有高达1.6万个核心。因此，在处理长文本分析任务或知识库问答任务时，GPU能够几乎即时响应，而CPU则需要几十秒到几分钟的时间来读取资料。

随着技术的进步，最新推出的AI PC也将对本地运行大型模型进行专门优化。预计到2025年，集成显卡的性能将达到3090 GPU运行大型模型的水平，预示着端侧大模型时代的到来。