gpu显示off_小白之GPU简介-CSDN博客

本文链接：https://blog.csdn.net/weixin_42465297/article/details/112289468

本文介绍了GPU的发展历程，从Tesla到Turing架构的演进，强调了架构对性能的影响。同时，讨论了GPU的芯片型号、显卡系列、流处理器数量对性能的重要性，以及在深度学习中的应用，特别是GPU云主机在计算效率上的优势。还提到了显卡的其他关键特性，如风扇转速、显存使用率和GPU利用率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

GPU

之前看到一个用画师的比喻感觉蛮好的。

GPU架构 一般来说越新性能越好，架构越好水平越好，类比画师的水平。
流处理器 渲染管，流处理器数量越多，显卡画图的能力越强，速度也越快。一般是同型号比较流处理器个数。类比画师的个数。
核心频率 频率越高，效率越高，功耗也越大，画师工厂的运画到仓库的搬运人员其运输的速率。
容量提供临时的存储功能，当然要配合带宽等，不然大了也浪费。类比画师工厂仓库。
显存带宽 显存位宽×显存频率，显存位宽类比成公路，公路越宽，一次能通过的车辆越多；显存频率类别汽车速度，频率越快，数据传输就越快。

1.首先来看看NVIDIA GPU架构。架构指的是硬件的设计方式，例如core数量、L1 or L2缓存、计算单元双精度还是单精度等等。

2008 - Tesla

Tesla最初是给计算处理单元使用的，应用于早期的CUDA系列显卡芯片中，并不是真正意义上的普通图形处理芯片。

2010 - Fermi

Fermi是第一个完整的GPU计算架构。首款可支持与共享存储结合纯cache层次的GPU架构，支持ECC的GPU架构。

2012 - Kepler

Kepler相较于Fermi更快，效率更高，性能更好。

2014 - Maxwell

其全新的立体像素全局光照 (VXGI) 技术首次让游戏 GPU 能够提供实时的动态全局光照效果。基于 Maxwell 架构的 GTX 980 和 970 GPU 采用了包括多帧采样抗锯齿 (MFAA)、动态超级分辨率 (DSR)、VR Direct 以及超节能设计在内的一系列新技术。

2016 - Pascal

Pascal 架构将处理器和数据集成在同一个程序包内，以实现更高的计算效率。1080系列、1060系列基于Pascal架构

2017 - Volta

Volta 配备640 个Tensor 核心，每秒可提供超过100 兆次浮点运算(TFLOPS) 的深度学习效能，比前一代的Pascal 架构快5 倍以上。

2018 - Turing

Turing 架构配备了名为 RT Core 的专用光线追踪处理器，能够以高达每秒 10 Giga Rays 的速度对光线和声音在 3D 环境中的传播进行加速计算。Turing 架构将实时光线追踪运算加速至上一代 NVIDIA Pascal™ 架构的 25 倍，并能以高出 CPU 30 多倍的速度进行电影效果的最终帧渲染。2060系列、2080系列显卡也是跳过了Volta直接选择了Turing架构。

2.芯片型号

芯片型号：GT200、GK210、GM104、GF104等。其中第二个字母表示架构，如K40 中的K表示是Kepler架构

3.显卡系列

分成GeForce, Quadro, Tesla。 GeForce消费级常用于游戏等，如GeForce RTX 2080ti、GeForce GTX 1080ti，还有显卡型号有Titan v, Titan RTX, Titan Xp； Quadro用于专业图形领域，如Quadro RTX 8000； Tesla用于科学计算，深度学习加速等场景，如Tesla P4/P40, Tesla T4。

4.流处理器

流处理器也叫渲染管，越多处理越快。

5.深度学习gpu云主机

型号中大写表示架构，例如K表示是Kepler架构
CUDA Cores 流处理器个数
显存容量存储，例如深度学习中参数
浮点性能通常关心的是32位浮点计算能力。16位浮点训练也开始流行，如果只做预测的话也可以用8位整数。FLOPS，即每秒浮点运算次数。

一个TFLOPS（teraFLOPS）= 每秒万亿（=10^12）次的浮点运算

（百度深度学习开发板应该是TITAN X (Pascal)）

6.其他

1.公版显卡显卡研发厂家NVDIA（英伟达）或AMD官方售卖的显卡；非公版显卡购买NVDIA,AMD显卡芯片后自行组装生产的显卡，通常比公版显卡性能更高。

2.N卡 NVIDIA生产 A卡ADM

3.linux命令

watch -n 1 nvidia-smi

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.67       Driver Version: 418.67       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  TITAN X (Pascal)    On   | 00000000:00:09.0 Off |                  N/A |
| 23%   26C    P8     8W / 250W |      1MiB / 12196MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

Fan（23%）N/A是风扇转速，从0到100%之间变动。有的设备不会返回转速因为依赖外界降温比如在空调房的gpu；

Name：名称；

Temp：显卡内部的温度，单位是摄氏度；

Perf：表征性能状态，从P0到P12，P0表示最大性能，P12表示状态最小性能；

Persistence-M：持续模式的状态（持续模式耗能大，但在新的GPU应用启动时花费时间更少）；

Pwr:Usage/Cap：GPU能耗；

Bus-Id：GPU总线；

Disp.A：Display Active，表示GPU的显示是否初始化；

Memory-Usage：显存使用率； 12196MiB表示显存大小是12G

Volatile GPU-Util：GPU利用率

Uncorr. ECC：是否开启错误检查和纠正技术，0/DISABLED, 1/ENABLED

Compute M.：计算模式，0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED