Gemma2用最小参数量实现了超过三倍参数的模型能力,超过llama3 70B,特别中文翻译能力,比千问70B还要强。并且Gemma2 9B也非常出色,可以在6G显卡运行。不要迷信f16, 参数大才是王道,越大参数模型量化损失越小,宁可要32B的量化也不要14B的f16精度。
对于运行大型模型的最佳推理引擎,并非是llama.cpp或vllm,而是闲鱼。如果你考虑将4090显卡出售,无论换成哪种显卡,其性能都可能优于使用4090来运行大型模型。如果你追求性价比,可以选择购买两块RTX 3090 24G显卡。它们的48G显存虽然只能勉强支持llama 70B和qwen 72B的int4量化模型,但不适合处理过长的上下文。
如果你愿意更进一步,可以购买四块经过魔改的RTX 2080Ti 22G显卡。这88G的显存足以支持全精度的Yi-1.5-34B模型,或者在Qwen2-72B的量化模型中实现更长的上下文。如果你像我一样追求极致,可以选择购买八块Tesla P100 16G显卡。这些显卡的128G显存不仅能够运行int8量化的Qwen2-72B模型,还能利用HBM显存和张量并行技术,提供比单块4090 48G更快的性能(假设存在这样的型号)。
最后,让我们简要探讨一下GPU和CPU在处理大型模型时的区别。实际上,它们在推理速度上的差异并不显著。例如,使用12代i7 CPU运行7亿参数的模型,速度大约是每秒10个token,而使用2060 GPU可以达到每秒30个token,两者之间的差距并不大。
GPU的真正优势在于其对prompt的评估速度,也就是处理输入的速度。这与芯片的核心数量密切相关。CPU通常只有4核或8核,而GPU则拥有数千个核心,例如4090拥有高达1.6万个核心。因此,在处理长文本分析任务或知识库问答任务时,GPU能够几乎即时响应,而CPU则需要几十秒到几分钟的时间来读取资料。
随着技术的进步,最新推出的AI PC也将对本地运行大型模型进行专门优化。预计到2025年,集成显卡的性能将达到3090 GPU运行大型模型的水平,预示着端侧大模型时代的到来。