讨论:单张4090能运行的最强开源大模型?

Gemma2用最小参数量实现了超过三倍参数的模型能力,超过llama3 70B,特别中文翻译能力,比千问70B还要强。并且Gemma2 9B也非常出色,可以在6G显卡运行。不要迷信f16, 参数大才是王道,越大参数模型量化损失越小,宁可要32B的量化也不要14B的f16精度。

对于运行大型模型的最佳推理引擎,并非是llama.cpp或vllm,而是闲鱼。如果你考虑将4090显卡出售,无论换成哪种显卡,其性能都可能优于使用4090来运行大型模型。如果你追求性价比,可以选择购买两块RTX 3090 24G显卡。它们的48G显存虽然只能勉强支持llama 70B和qwen 72B的int4量化模型,但不适合处理过长的上下文。

如果你愿意更进一步,可以购买四块经过魔改的RTX 2080Ti 22G显卡。这88G的显存足以支持全精度的Yi-1.5-34B模型,或者在Qwen2-72B的量化模型中实现更长的上下文。如果你像我一样追求极致,可以选择购买八块Tesla P100 16G显卡。这些显卡的128G显存不仅能够运行int8量化的Qwen2-72B模型,还能利用HBM显存和张量并行技术,提供比单块4090 48G更快的性能(假设存在这样的型号)。

最后,让我们简要探讨一下GPU和CPU在处理大型模型时的区别。实际上,它们在推理速度上的差异并不显著。例如,使用12代i7 CPU运行7亿参数的模型,速度大约是每秒10个token,而使用2060 GPU可以达到每秒30个token,两者之间的差距并不大。

GPU的真正优势在于其对prompt的评估速度,也就是处理输入的速度。这与芯片的核心数量密切相关。CPU通常只有4核或8核,而GPU则拥有数千个核心,例如4090拥有高达1.6万个核心。因此,在处理长文本分析任务或知识库问答任务时,GPU能够几乎即时响应,而CPU则需要几十秒到几分钟的时间来读取资料。

随着技术的进步,最新推出的AI PC也将对本地运行大型模型进行专门优化。预计到2025年,集成显卡的性能将达到3090 GPU运行大型模型的水平,预示着端侧大模型时代的到来。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值