【AI算力】关于国产算力的一些调研分析

随着英伟达卡被禁售,中国GPU市场迎来华为、壁仞、燧原等本土企业的崛起。这些企业如昆仑芯、海光在AI加速领域有深厚积累,产品性能逐渐追赶国际水平,但面临着技术研发、编程软件生态和用户生态的挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随着英伟达卡被禁售,国产显卡市场逐渐崛起。以华为、曙光为第一梯队代表,壁仞、燧原、寒武纪等为第二梯队代表,场景覆盖从图像识别到大模型训练、推理,落地领域包括金融、安防、智能汽车、IOT、智能客服等行业

国内主流的GPU提供商:

  • 昆仑芯:昆仑芯(北京)科技有限公司前身为百度智能芯片及架构部,于2021年4月完成独立融资,首轮估值约130亿元。是国内最早布局AI加速领域,深耕10余年,是一家在体系结构、芯片实现、软件系统和场景应用均有深厚积累的AI芯片企业。
  • 壁仞科技:壁仞科技创立于 2019 年,在 GPU、DSA(专用加速器)和计算机体系结构等领域具有深厚的技术积累。公司致力于开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。
  • 燧原科技:燧原科技是一家专注于人工智能领域云端算力平台的创业公司,致力为人工智能产业发展提供普惠的基础设施解决方案,提供自主知识产权的高算力、高能效比、可编程的通用人工智能训练和推理产品。其创新性架构、互联方案和分布式计算及编程平台,可广泛应用于云数据中心、超算中心、互联网、金融及智慧城市等多个人工智能场景。燧原科技是国内第一家同时拥有高性能云端训练和云端推理产品的创业公司,同时也是国内第一个发布第二代人工智能训练产品组合的公司。燧原科技自成立以来,已完成多轮融资,并发布了多款人工智能训练和推理产品。
  • 海光:海光DCU(Data Center Unit)系列产品以GPGPU(通用并行计算图形处理器)架构为基础,兼容通用的“类CUDA”环境。该系列产品可广泛应用于大数据处理、人工智能、商业计算等应用领域。海光DCU产品能适配、适应国际主流商业计算软件和人工智能软件,是国内具有全精度浮点数据和各种常见整型数据计算能力的GPGPU产品。其采用“类CUDA”通用并行计算架构,可广泛应用于电信、金融、互联网、教育、交通等重要行业或领域。
  • 寒武纪:寒武纪公司是一家专注于人工智能芯片领域的科技企业,成立于2016年。该公司的主要业务是设计、生产基于人工智能芯片的处理器,以及提供基于这些芯片的解决方案。这些芯片可以应用于各种需要人工智能处理能力的领域,如云计算、智能家居、智能安防等。
  • 华为昇腾:目前提供包括推理卡与训练卡,训练卡主要包括910A和910B,910A性能接入A10910B目前性能接近A800的80%,但生态有待完善

国内GPU厂商产品及参数

品牌昆仑芯壁仞科技 燧原科技 海光寒武纪华为海思 
产品R200BR100 i20 深算一号MLU370-X8昇腾910 
发布日期20212022 2021 202120222018 
半精度(FP16)128 TFLOPSNA 128 TFLOPS NA96 TFLOPS 320 TFLOPS 
单精度(FP32)32 TFLOPS256 TFLOPS 32 TFLOPS NA24 TFLOPS NA 
双精度(FP64)NANA NA    10.8 TFLOPSNA NA 
INT8256 TOPS2048 TOPS 256 TOPS     NA256 TOPS640 TOPS 
CUDA兼容NA是 否 NA否 NA 

海外GPU厂商产品及参数:

品牌AMD AMDNVIDIANVIDIANVIDIANVIDIANVIDIA
产品INSTINCT MI100  INSTINCT M1250 P100V100 SXM2T4A100 80GBH100 PCle 
发布日期2020202120162017201820202022
工艺7nm6nm16nm12nm12nm7nm4nm
半精度(FP16)184.6 TFLOPS362.1 TFLOPS21.2 TFLOPS125 TFLOPS65 TFLOPS312 TFLOPSNA
半精度(FP16 Tensor Core)NANA不支持不支持不支持不支持1600 TFLOPS*
单精度(FP32) 23.1 TFLOPS 45.3 TFLOPS10.6 TFLOPS15.7 TFLOPSNA19.5 TFLOPS48 TFLOPS
单精度(FP32 Tensor Float)46.1 TFLOPS(AMD为Matrix Core) 90.5 TFLOPS (AMD为Matrix Core)不支持不支持不支持156 TFLOPS800 TFLOPS
双精度(FP64) 11.5 TFLOPS45.3 TFLOPS5.3 TFLOPS7.8 TFLOPS8.1 TFLOPS9.7 TFLOPS24TFLOPS
双精度(FP64 Tensor Core)不支持90.5 TFLOPS (AMD为Matrix Core) 不支持不支持不支持19.5 TFLOPS48 TFLOPS 
INT8184.6 TOPs362.1 TOPsNANA130TOPs624TOPsNA
INT8(Tensor Core)不支持NA不支持不支持不支持不支持3200TOPs
CUDA兼容否 否 

国内外GPU卡的主要差距

1. 技术差距:国外GPU卡在技术研发方面领先,拥有较高的计算性能和能效比。而国内GPU卡在技术研发方面相对滞后,与国外产品存在一定的性能差距。

2. 编程软件:主要是CUDA、Pytorch相关的软件完善度不够,需要一个比较长的时间来积累

3. 用户生态:包括集成商生态,用户生态,软件生态、人才生态、行业生态、场景生态等需要完善

为了缩小国内外GPU卡的差距,国内企业需要加强自主研发和创新,提高技术研发能力;同时,需要加强生态系统建设,完善硬件、软件、开发工具w和应用场景等方面的布局;还需要加强市场推广和品牌建设,提高市场竞争力和影响力。

<think>嗯,用户之前问过Deepseek满血版的硬件要求,现在接着问A100的价格。看起来他们可能是在考虑搭建或者升级自己的硬件配置,特别是针对大模型的训练或推理。 首先,用户可能是在做预规划,需要知道A100的大致价格,以便评估整体成本。之前的问题已经涉及到了硬件要求,现在具体到某个GPU型号的价格,说明他们可能在比较不同配置的成本效益。 接下来,我需要确认A100的不同版本,比如80GB和40GB显存的区别,还有是否考虑新旧卡、购买渠道等因素。用户可能不知道这些因素对价格的影响,需要详细说明。 另外,用户可能关心的是性价比,比如A100与其他型号如H100的对比,或者是否有更经济的选项,比如租赁或购买旧卡。这时候需要提供不同选项的价格范围,以及各自的优缺点。 还要注意用户的实际应用场景,是用于训练还是推理。如果是训练,可能需要多卡,而推理可能单卡或多卡。价格方面,如果是企业采购,可能更关注全新卡的价格和长期支持;如果是个人或小团队,可能会考虑二手或租赁。 另外,用户可能没有考虑到国内外的价格差异,或者税费、运输成本等,这些也需要提及。同时,租赁和云端服务的选项对于预有限或者短期需求的用户可能更合适,需要一并介绍。 最后,总结时应该根据不同的使用场景给出建议,比如预充足的话选新卡,预有限考虑二手或租赁,短期项目用云服务,这样用户可以根据自身情况做出决策。</think>NVIDIA A100 是专为AI训练/推理设计的高性能计GPU,其价格受**显存容量(40GB/80GB)、购买渠道(全新/二手/租赁)、采购规模(单卡/批量)**等因素影响较大。以下是不同场景下的价格参考(数据截至2024年7月): --- ### **1. 全新卡(企业级采购)** - **A100 80GB PCIe版本**: - 单卡价格:约 **¥70万~90万元人民币**(受供应链波动影响较大) - 批量采购(如8卡以上):可能降至 **¥60万~75万/卡** - **A100 40GB PCIe版本**: - 单卡价格:约 **¥50万~70万元人民币** - **SXM4版本(用于DGX系统或服务器集群)**: - 价格通常高于PCIe版本,需整机采购(如NVIDIA DGX A100系统价格超¥1000万元)。 --- ### **2. 二手/翻新卡(风险较高)** - **A100 80GB**:约 **¥30万~50万元人民币**(需注意保修状态和矿卡风险)。 - **A100 40GB**:约 **¥20万~35万元人民币**。 --- ### **3. 租赁/云端服务(短期使用更划)** - **物理卡租赁**: - 月租金约 **¥5万~10万/卡**(依赖供应商资源)。 - **云计按需实例**(以主流云厂商为例): - **单卡A100实例**:每小时约 **¥80~150元**(如AWS p4d、阿里云GN7系列)。 - **8卡A100集群**:每小时约 **¥1000~2000元**。 --- ### **4. 对比其他GPU成本** - **H100 80GB**:单卡价格超¥100万元,性能比A100提升2-3倍但成本更高。 - **消费级显卡(如RTX 4090)**:约¥1.5万元,显存和并行能远低于A100,仅适合轻量级任务。 --- ### **关键注意事项** 1. **显存需求**: - A100 80GB更适合大模型全参数训练(如Llama 70B),40GB版本需依赖模型量化或并行技术。 2. **兼容性**: - A100需搭配特定服务器(如带PCIe 4.0接口和≥1000W电源)及CUDA生态工具链。 3. **替代方案**: - 若预有限,可考虑国产力卡(如华为昇腾910B)或租赁云计资源。 --- ### **总结建议** - **企业级训练**:优先采购A100/H100集群,长期成本更低。 - **中小团队/个人**:选择云服务或二手卡,降低前期投入。 - **短期实验**:使用云端按需实例,灵活控制成本。 实际价格需联系官方供应商(如NVIDIA合作伙伴)或云服务商获取最新报价。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值