AI算力基础 -- Nvidia TESLA V100 GPU

在这里插入图片描述
– 2017年

1. Introduction to the NVIDIA Tesla V100 GPU Architecture

新的NVIDIA®Tesla®V100加速器(如图1所示)集成了强大的新
Volta™GV100 GPU。GV100不仅建立在其前身Pascal™的基础上
GP100 GPU,它显著提高了性能和可扩展性,并增加了许多提高可编程性的新特性。这些进步将为高性能计算、数据中心、超级计算机以及深度学习系统和应用提供动力。
在这里插入图片描述

2. Tesla V100:The AI Computing andd HPC PowerHouse

GV100 GPU包含 21.1 billion transistors 个晶体管,芯片尺寸为 815 mm2。它是在一个新的台积电12纳米FFN (FinFET NVIDIA)高性能制造工艺定制
与之前的Pascal GPU一代相比,GV100提供了更多的计算性能,并添加了许多新特性。GV100不仅简化了GPU编程和应用移植,还提高了GPU的资源利用率。GV100是一款非常高效的处理器,每瓦的性能非常出色。

KEY FEATURES:
2.1 New Streaming Multiprocessor (SM) Architecture Optimized for Deep Learning
Volta的特点是在GPU的中心位置重新设计了SM处理器架构。新的Volta SM比上一代Pascal设计节能50%,使FP32和FP64的性能在相同的功率范围内大幅提升。
专门为深度学习设计的**新张量核心(Tensor Cores)**可为训练提供高达12倍的峰值TFLOPS,为推理提供高达6倍的峰值TFLOPS。通过独立的并行整数和浮点数据路径,Volta SM在混合计算和寻址计算的工作负载下效率也高得多。

2.2 Second-Generation NVIDIA NVLink
第二代 NVIDIA 的 NVLink 高速互连提供了更高的带宽,更多的链路,以及针对多GPU 和 多GPU/CPU 系统配置的改进的可伸缩性。Volta GV100支持最多6条NVLink链路和 300GB/s 的总带宽,而 GP100 支持 4 条 NVLink 链路和 160GB/s 的总带宽。NVLink现在支持基于IBM Power 9 CPU的服务器的CPU控制和缓存一致性功能。新NVIDIA DGX-1搭载V100 AI超级计算机,使用NVLink为超快深度学习训练提供更大的可扩展性。

2.3 HBM2 Memory: Faster, Higher Efficiency
Volta的高度 tuned 的16GB HBM2内存子系统提供 900GB/s 的峰值内存带宽。三星新一代HBM2内存和Volta新一代内存控制器的结合,提供了比Pascal GP100高出1.5倍的内存带宽,在许多工作负载下,最高可达95%的内存带宽利用率

2.4 Volta Multi-Process Service
Volta MPS (Volta Multi-Process Service)是Volta GV100架构的新特性,提供CUDA MPS服务器关键部件的硬件加速功能,使共享GPU的多个计算应用能够提高性能、隔离和服务质量。Volta MPS还将MPS客户端的最大数量从16个增加到3倍
Pascla to 48 on Volta.

2.5 Enhanced Unified Memory and Address Translation Services
GV100统一内存技术包括新的访问计数器,允许更准确地将内存页迁移到最频繁访问它们的处理器,提高了处理器之间共享内存范围的效率。在IBM Power平台上,这是新的地址转换服务(ATS)支持允许GPU直接访问CPU的页表。

2.6 Maximum Performance and Maximum Efficiency Modes
在最大性能模式下,Tesla V100加速器将工作到其TDP
(Thermal Design Power)水平300 W,以加快应用程序,需要最快的计算速度和最高的数据吞吐量。最高效率模式允许数据中心管理人员调整 TeslaV100加速器的功率使用,以达到最佳的每瓦性能。在一个机架中,所有gpu都可以设置不超过功耗上限,从而大大降低功耗,同时仍然可以获得优异的机架性能

2.7 Cooperative Groups and New Cooperative Launch APIs
协作组是cuda9中引入的一种新的编程模型,用于组织通信线程组。协作组允许开发人员表达线程通信的粒度,帮助他们表达更丰富、更高效的并行分解。Kepler此后,所有NVIDIA gpu都支持基本协作组功能. Pascal和Volta支持新的协作启动api,支持CUDA线程块之间的同步。Volta增加了对新的同步模式的支持。

2.8 Volta Optimized Software
新版本的深度学习框架,如Caffe2, MXNet, CNTK, TensorFlow等,利用Volta的性能,提供更快的训练时间和更高的多节点训练性能。Volta优化版本的GPU加速库,如cuDNN, cuBLAS和TensorRT利用Volta GV100架构的新功能,为深度学习推理和High提供更高的高性能计算(HPC)应用。NVIDIA CUDA Toolkit 9.0版本包括新的api和对Volta特性的支持,以提供更简单的编程
在这里插入图片描述

EXTREME PERFORMANCE FOR AI AND HPC

3. NVIDIA GPUs – The Fastest and Most Flexible Deep Learning Platform

4. GV100 GPU Hardware Architecture In-Depth

5. GV100 CUDA Hardware and Software Architecture Advances

INDEPENDENT THREAD SCHEDULING

在这里插入图片描述
Volta开始每个thread有自己独立的PC和栈管理
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值