深度学习训练，选择P100就对了

最新推荐文章于 2024-11-04 10:00:00 发布

weixin_34126557

最新推荐文章于 2024-11-04 10:00:00 发布

阅读量1.4k

点赞数

文章标签：人工智能 python 大数据

原文链接：https://my.oschina.net/u/3715907/blog/1572748

版权

本文通过NVCaffe、MXNet、TensorFlow框架对比了NVIDIA Tesla P100和P40在深度学习训练中的性能。尽管P40在单精度运算能力上占优，但由于P100拥有更高的显存带宽，实测显示P100在深度学习训练中的性能至少高出20%，因此对于深度学习训练，P100是更好的选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019独角兽企业重金招聘Python工程师标准>>>

1.背景

去年4月，NVIDIA推出了Tesla P100加速卡，速度是NVIDIA之前高端系统的12倍。同年9月的GTC China 2016大会，NVIDIA又发布了Tesla P4、P40两款深度学习芯片。Tesla P100主攻学习和训练任务，而Tesla P4&P40主要负责图像、文字和语音识别。

同为Pascal架构且运算能力接近的P100和P40常常被拿来对比，单看Spec上运算能力，似乎P40比P100的深度学习性能更好，但实际上呢？本文就通过使用NVCaffe、MXNet、TensorFlow三个主流开源深度学习框架对P100和P40做性能实测来揭晓答案吧。

２.初步分析

我们先来看下P100和P40的Spec参数指标。从参数来看，的确是P40的单精运算能力强于P100，而深度学习训练普遍使用单精度浮点类型，是衡量深度学习性能的一个重要指标。P40支持IN8类型，所以非常适合精度要求不高的推理场景，24G的显存也非常适合在线处理大数据量的图像等。但是P100搭载的是HBM2高速显存，而P40只搭载了GDDR5的显存，这使得P100的显存带宽达到了P40的2倍多，