一、DCU实测性能比较
二、各品牌加速卡参数对比
型号 | DCU Z100L | Nvidia A100/A800 | 天数智芯 天垓100 | 寒武纪 MLU370-X4 |
架构 | GPGPU | GPGPU | GPGPU | NPU |
FP64 | 10.1 | 9.7 | - | - |
FP32 | 12.2 | 19.5/156(TC) | 18.5/37(含TCU) | 24 |
FP16 | 24.5 | 78/312(TC) | 37/147(含TCU) | 96 |
INT8 | 49.1 | 624(TC) | 295 | 256 |
内存 | HBM2 16GB/32GB | HBM2 40GB/80GB | HBM2 32GB | LPDDR5 24GB |
功耗 | 250W/280W | 250W/300W/400W (SXM) | 250W | 150W |
软件环境 | DTK(兼容CUDA) | CUDA | 天数智芯软件栈(类CUDA) | BANG |
整机形态 | 浸没液冷/冷板液冷/风冷 | 冷板液冷/风冷 | 冷板液冷/风冷 | 冷板液冷/风冷 |
三、各品牌加速卡实测性能比较
客户现场实测数据 同参数条件下训练性能,FP32标称值24/12.2, FP16标称值96/24.5
模型类型 | 模型名称 | MLU370-X4 | A100 | Z100L | MLU370-X4 /Z100L | 精度 |
图像分类 | Pytorch-Resnet50(img/s) | 320 | 710 | 280 | 114% | FP32 |
目标检测 | Pytorch-Yolov5-v6.0(img/s) | 108 | 215 | 90 | 120% | FP16 |
NLP | Pytorch-BERT(sequences/s) | 27 | 144 | 48 | 56% | FP32 |
客户无人机模型 | paddle-ppyolo-r50vd(img/s) | 7.2 | 7.3 | 4.8 | 150% | FP32 |
客户违章作业识别模型 | Pytorch-Yolov5(img/s) | 108 | 215 | 90 | 120% | FP16 |
同参数条件下训练性能, FP32标称值37/12.2, FP16标称值147/24.5
模型类型 | 模型名称 | 天垓100 | A100 | Z100L | 天垓100 /Z100L | 精度 |
图像分类 | Pytorch-Resnet50(img/s) | 360 | 710 | 280 | 128% | FP32 |
目标检测 | Pytorch-Yolov5-v6.0(img/s) | 60 | 215 | 90 | 67% | FP16 |
NLP | Pytorch-BERT(sequences/s) | 48 | 144 | 48 | 100% | FP32 |
客户无人机模型 | paddle-ppyolo-r50vd(img/s) | 6 | 7.3 | 4.8 | 125% | FP32 |
客户违章作业识别模型 | Pytorch-Yolov5(img/s) | 60 | 215 | 90 | 67% | FP16 |