RTX4090是很多开发者首选,随着48G的全面放开,相信在未来一段时间4090依然是主流。
但是很多朋友拿到自己的大宝贝跑起来才发现多卡4090比单卡居然还慢!为何出现这种情况?
第一,请看你是不是被忽悠买到了酷睿i9+双卡4090的主机,酷睿处理器的PCIE总线是20条,主板上2个所谓x16的PCIE插槽实际上运行在x8的带宽,有些甚至就跑在x16+x4的带宽,性能被严重限制。
第二,4090没有nvlink,如果是模型训练场景这个就很吃亏,所以像A40 / A6000这种卡出现疯狂的涨价,这些卡性能不到4090一半,但是多卡训练场景比4090快很多;
第三,如果只是推理场景,现在的MOE模型减少了大量GPU之间的数据交互,但并不是没有,而4090这种消费级显卡不支持卡间P2P,所有的数据都需要CPU进行转发,这不仅是更高的延迟,也带来CPU不必要的负载。用企业级GPU的时候,CPU占用率几乎都不动一下。
总结,如果是要多卡跑更大的模型,首先应该用Intel至强或者AMD EPYC平台,然后GPU能用专业卡尽量专业卡,目前4090价格已经涨到很离谱,这个价位都可以直接用RTX5000ada-32G。