
GPU
之前看到一个用画师的比喻感觉蛮好的。
- GPU架构 一般来说越新性能越好,架构越好水平越好,类比画师的水平。
- 流处理器 渲染管,流处理器数量越多,显卡画图的能力越强,速度也越快。一般是同型号比较流处理器个数。类比画师的个数。
- 核心频率 频率越高,效率越高,功耗也越大,画师工厂的运画到仓库的搬运人员其运输的速率。
- 容量 提供临时的存储功能,当然要配合带宽等,不然大了也浪费。类比画师工厂仓库。
- 显存带宽 显存位宽×显存频率,显存位宽类比成公路,公路越宽,一次能通过的车辆越多;显存频率类别汽车速度,频率越快,数据传输就越快。
1.首先来看看NVIDIA GPU架构。架构指的是硬件的设计方式,例如core数量、L1 or L2缓存、计算单元双精度还是单精度等等。

- 2008 - Tesla
Tesla最初是给计算处理单元使用的,应用于早期的CUDA系列显卡芯片中,并不是真正意义上的普通图形处理芯片。
- 2010 - Fermi
Fermi是第一个完整的GPU计算架构。首款可支持与共享存储结合纯cache层次的GPU架构,支持ECC的GPU架构。
- 2012 - Kepler
Kepler相较于Fermi更快,效率更高,性能更好。
- 2014 - Maxwell
其全新的立体像素全局光照 (VXGI) 技术首次让游戏 GPU 能够提供实时的动态全局光照效果。基于 Maxwell 架构的 GTX 980 和 970 GPU 采用了包括多帧采样抗锯齿 (MFAA)、动态超级分辨率 (DSR)、VR Direct 以及超节能设计在内的一系列新技术。
- 2016 - Pascal
Pascal 架构将处理器和数据集成在同一个程序包内,以实现更高的计算效率。1080系列、1060系列基于Pascal架构
- 2017 - Volta
Volta 配备640 个Tensor 核心,每秒可提供超过100 兆次浮点运算(TFLOPS) 的深度学习效能,比前一代的Pascal 架构快5 倍以上。
- 2018 - Turing
Turing 架构配备了名为 RT Core 的专用光线追踪处理器,能够以高达每秒 10 Giga Rays 的速度对光线和声音在 3D 环境中的传播进行加速计算。Turing 架构将实时光线追踪运算加速至上一代 NVIDIA Pascal™ 架构的 25 倍,并能以高出 CPU 30 多倍的速度进行电影效果的最终帧渲染。2060系列、2080系列显卡也是跳过了Volta直接选择了Turing架构。
2.芯片型号
芯片型号:GT200、GK210、GM104、GF104等。其中第二个字母表示架构,如K40 中的K表示是Kepler架构
3.显卡系列
分成GeForce, Quadro, Tesla。 GeForce消费级常用于游戏等,如GeForce RTX 2080ti、GeForce GTX 1080ti,还有显卡型号有Titan v, Titan RTX, Titan Xp; Quadro用于专业图形领域,如Quadro RTX 8000; Tesla用于科学计算,深度学习加速等场景,如Tesla P4/P40, Tesla T4。
4.流处理器
流处理器也叫渲染管,越多处理越快。

5.深度学习gpu云主机
- 型号中大写表示架构,例如K表示是Kepler架构
- CUDA Cores 流处理器个数
- 显存容量 存储,例如深度学习中参数
- 浮点性能 通常关心的是32位浮点计算能力。16位浮点训练也开始流行,如果只做预测的话也可以用8位整数。FLOPS,即每秒浮点运算次数。
一个TFLOPS(teraFLOPS)= 每秒万亿(=10^12)次的浮点运算
(百度深度学习开发板应该是TITAN X (Pascal))

6.其他
1.公版显卡 显卡研发厂家NVDIA(英伟达)或AMD官方售卖的显卡;非公版显卡购买NVDIA,AMD显卡芯片后自行组装生产的显卡,通常比公版显卡性能更高。
2.N卡 NVIDIA生产 A卡ADM
3.linux命令
watch -n 1 nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.67 Driver Version: 418.67 CUDA Version: 10.1 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 TITAN X (Pascal) On | 00000000:00:09.0 Off | N/A |
| 23% 26C P8 8W / 250W | 1MiB / 12196MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
Fan(23%)N/A是风扇转速,从0到100%之间变动。有的设备不会返回转速因为依赖外界降温比如在空调房的gpu;
Name:名称;
Temp:显卡内部的温度,单位是摄氏度;
Perf:表征性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能;
Persistence-M:持续模式的状态(持续模式耗能大,但在新的GPU应用启动时花费时间更少);
Pwr:Usage/Cap:GPU能耗;
Bus-Id:GPU总线;
Disp.A:Display Active,表示GPU的显示是否初始化;
Memory-Usage:显存使用率; 12196MiB表示显存大小是12G
Volatile GPU-Util:GPU利用率
Uncorr. ECC:是否开启错误检查和纠正技术,0/DISABLED, 1/ENABLED
Compute M.:计算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED
Processes:进程信息 pid占用显存大小等等
显卡天梯图
