深度分析下 DeepSeek-R1 用华为昇腾,推理集群大概多大?
重磅消息,昨天的新闻,DeepSeek-R1 真的能在华为的昇腾AI加速卡上跑了。我们来深度分析下硬件性能真的能跟得上吗?
根据华为官方,Atlas(昇腾) 300I Pro 推理卡单卡拥有 140 TOPS INT8 和 70 TFLOPS FP16,这个性能足够推理用,但关键的内存则使用了LPDDR4X 24 GB,总带宽204.8 GB/s。这意味着运行原生的FP8版本的DeepSeek-R1大概单卡(先不考虑装不下的问题, R1激活量是37B)是 4 token/s.
然后还有2合一型号 Atlas 300I Duo(一块PCB焊了2个核心),内存翻倍,LPDDR4X 96GB或48GB,总带宽408GB/s。
那么我们计算一下如果能装下DeepSeek-R1(FP8 按照800GB计算),
深度分析下 DeepSeek-R1 用华为昇腾,推理集群大概多大?
最新推荐文章于 2025-04-27 15:23:24 发布