一文详解英伟达刚发布的 Tesla V100 究竟牛在哪？-CSDN博客

一文详解英伟达刚发布的 Tesla V100 究竟牛在哪？

众所周知，目前无论是语音识别，还是虚拟个人助理的训练；路线探测，还是自动驾驶系统的研发，在这些人工智能领域，数据科学家们正在面对越来越复杂的 AI 挑战。而为了更好地实现这些颇具未来感的强大功能，就必须在实践中引入一些指数级的更加复杂的深度学习模型。

另一方面，HPC（高性能计算）在现代科学研究中一直起着至关重要的作用。无论是预测天气，新药物的研究，或是探索未来能源，科研人员每天都需要利用大型计算系统对现实世界做各种各样的仿真和预测。而通过引入 AI 技术，HPC 就可以显著提升科研人员进行大数据分析的效率，并得到一些此前通过传统的仿真和预测方法无法得到新结论。

为了进一步推动 HPC 和 AI 领域的相关发展，英伟达近期发布了新一代 Tesla V100 GPU 加速器。它基于最新的 NVIDIA Volta GV100 GPU 平台和各种突破性技术创新，可以为各种超级计算系统提供一个强大的运算平台，不论在以科学仿真为主要手段的计算科学领域，还是在以洞悉数据奥秘为目标的数据科学领域，Tesla V100 都能为相关应用提供强大的算力支持。

下面，我们会通过这篇博客对 Tesla V100 的核心：Volta 架构做一个深度剖析，同时帮助开发者了解它在实际开发中具体带来了哪些优势。

Tesla V100：AI 计算和 HPC 的源动力

NVIDIA Tesla V100 是目前世界上最高性能的并行处理器，专门用于处理需要强大计算能力支持的密集型 HPC、AI、和图形处理任务。

Tesla V100 加速器的核心是 GV100 GPU 处理器。基于台积电专门为 NVIDIA 设计的最新 12nm FFN 高精度制程封装技术，GV100 在 815 平方毫米的芯片尺寸中，内部集成了高达 211 亿个晶体管结构。相较于上一代产品，也就是 Pascal 系列 GPU，GV100 不但在计算性能上有了长足的进步，同时还增加了许多令人眼前一亮的新特性。包括进一步精简的 GPU 编程和应用部署流程，以及针对 GPU 资源利用情况的深度优化。其结果是，GV100 在提供强大计算性能的同时还非常省电，下图显示了 Tesla V100 加速器和上代产品 Tesla P100 加速器在 ResNet-50 模型训练和推理中的性能对比，可以看到最新的 V100 要远超上一代 P100。

一文详解英伟达刚发布的 Tesla V100 究竟牛在哪？

Tesla V100 的关键特性总结如下：

● 针对深度学习优化的流式多处理器（SM）架构。作为 GPU 处理器的核心组件，在 Volta 架构中 NVIDIA 重新设计了 SM，相比之前的 Pascal 架构而言，这一代 SM 提高了约 50% 的能效，在同样的功率范围内可以大幅提升 FP32（单精度浮点）和 FP64（双精度浮点）的运算性能。专为深度学习设计的全新 Tensor Core 在模型训练场景中，最高可以达到 12 倍速的 TFLOP（每秒万亿次浮点运算）。另外，由于全新的 SM 架构对整型和浮点型数据采取了相互独立且并行的数据通路，因此在一般计算和寻址计算等混合场景下也能输出不错的效率。Volta 架构新的独立线程调度功能还可以实现并行线程之间的细粒度同步和协作。最后，一个新组合的 L1 高速数据缓存和共享内存子系统也显著提高了性能，同时大大简化了开发者的编程步骤。

● 第二代 NVLink。第二代 NVIDIA NVLink 高速互连技术为多 GPU 和多 GPU/CPU系统配置提供了更高的带宽，更多的连接和更强的可扩展性。GV100 GPU 最多支持 6 个 NVLink 链路，每个 25 GB/s，总共 300 GB/s。NVLink 还支持基于 IBM Power 9 CPU 服务器的 CPU 控制和高速缓存一致性功能。另外，新发布的 NVIDIA DGX-1V 超级 AI 计算机也使用了 NVLink 技术为超快速的深度学习模型训练提供了更强的扩展性。

● HBM2 内存：更快，更高效。Volta 高度优化的 16GB HBM2 内存子系统可提供高达 900 GB/s 的峰值内存带宽。相比上一代 Pascal GP100，来自三星的新一代 HBM2 内存与 Volta 的新一代内存控制器相结合，带宽提升 1.5 倍，并且在性能表现上也超过了 95% 的工作负载。

● Volta 多处理器服务（Multi-Process Service，MPS）。Volta MPS 是 Volta GV100 架构的一项新特性，可以提供 CUDA MPS 服务器关键组件的硬件加速功能，从而在共享 GPU 的多计算任务场景中显著提升计算性能、隔离性和服务质量（QoS）。Volta MPS 还将 MPS 支持的客户端最大数量从 Pascal 时代的 16 个增加到 48 个。

● 增强的统一内存和地址转换服务。Volta GV100 中的 GV100 统一内存技术实现了一个新的访问计数器，该计数器可以根据每个处理器的访问频率精确调整内存页的寻址，从而大大提升了处理器之间共享内存的使用效率。另外，在 IBM Power 平台上，新的地址转换服务（Address Translation Services，ATS）还允许 GPU 直接访问 CPU 的存储页表。

● Cooperative Groups（协作组）和新的 Cooperative Launch API（协作启动 API）。Cooperative Groups 是在 CUDA 9 中引入的一种新的编程模型，用于组织通信线程组。Cooperative Groups 允许开发人员表达线程之间的沟通粒度，帮助他们更丰富、更