国产加速器海光DCU&GPGPU深算处理器与NVIDIA等其它厂商GPU性能测试对比

一、DCU实测性能比较

二、各品牌加速卡参数对比

型号

DCU Z100L

Nvidia A100/A800

天数智芯 天垓100

寒武纪 MLU370-X4

架构

GPGPU

GPGPU

GPGPU

NPU

FP64

10.1

9.7

-

-

FP32

12.2

19.5/156(TC)

18.5/37(TCU)

24

FP16

24.5

78/312(TC)

37/147(TCU)

96

INT8

49.1

624(TC

295

256

内存

HBM2 16GB/32GB

HBM2 40GB/80GB

HBM2 32GB

LPDDR5 24GB

功耗

250W/280W

250W/300W/400W

SXM

250W

150W

软件环境

DTK(兼容CUDA)

CUDA

天数智芯软件栈(类CUDA

BANG

整机形态

浸没液冷/冷板液冷/风冷

冷板液冷/风冷

冷板液冷/风冷

冷板液冷/风冷

 三、各品牌加速卡实测性能比较

客户现场实测数据    同参数条件下训练性能,FP32标称值24/12.2,  FP16标称值96/24.5

模型类型

模型名称

MLU370-X4

A100

Z100L

MLU370-X4

/Z100L

精度

图像分类

Pytorch-Resnet50(img/s)

320

710

280

114%

FP32

目标检测

Pytorch-Yolov5-v6.0(img/s)

108

215

90

120%

FP16

NLP

Pytorch-BERT(sequences/s)

27

144

48

56%

FP32

客户无人机模型

paddle-ppyolo-r50vd(img/s)

7.2

7.3

4.8

150%

FP32

客户违章作业识别模型

Pytorch-Yolov5(img/s)

108

215

90

120%

FP16

           同参数条件下训练性能, FP32标称值37/12.2, FP16标称值147/24.5

模型类型

模型名称

天垓100

A100

Z100L

天垓100

/Z100L

精度

图像分类

Pytorch-Resnet50(img/s)

360

710

280

128%

FP32

目标检测

Pytorch-Yolov5-v6.0(img/s)

60

215

90

67%

FP16

NLP

Pytorch-BERT(sequences/s)

48

144

48

100%

FP32

客户无人机模型

paddle-ppyolo-r50vd(img/s)

6

7.3

4.8

125%

FP32

客户违章作业识别模型

Pytorch-Yolov5(img/s)

60

215

90

67%

FP16

  • 20
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术瘾君子1573

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值