[人工智能-深度学习-39]：环境搭建 - 训练主机硬件选择全指南（CPU/GPU/内存/硬盘/电源）

CPU的全称是Central Processing Unit，而GPU的全称是Graphics Processing Unit。在命名上。这两种器件相同点是它们都是Processing Unit——处理单元；不同点是CPU是“核心的”，而GPU是用于“图像”处理的。在我们一般理解里，这些名称的确非常符合大众印象中它们的用途——一个是电脑的“大脑核心”，一个是图像方面的“处理器件”。但是聪明的人类并不会被简单的名称所束缚，他们发现GPU在一些场景下可以提供优于CPU的计算能力。

于是有人会问：难道CPU不是更强大么？这是个非常好的问题。为了解释这个疑问，我们需要从CPU的组织架构说起。由于Intel常见的较新架构如broadwell、skylake等在CPU中都包含了一颗GPU，所以它们不能作为经典的CPU架构去看待。我们看一款相对单纯的CPU剖面图

这款CPU拥有8颗处理核心，其他组件有L3缓存和内存控制器等。

可以见得该款CPU在物理空间上，“核心”并不是占绝大部分。就单颗Core而言（上图CPU属于Haswell-E架构，下面截图则为Haswell的Core微架构。“Intel processors based on the Haswell-E microarchitecture comprises the same processor cores as described in the Haswell microarchitecture, but provides more advanced uncore and integrated I/O capabilities. ”——《64-ia-32-architectures-optimization-manual》）

可以看到，CPU有20多种“执行单元”（Execution Units）, 如ALU、FMA、FP add和FP mul等。

每个“执行单元”用于处理的数据运算。

3.3 CPU的优势在与复杂的逻辑运算

可以见得，CPU是个集各种运算能力的大成者，擅长处理复杂的逻辑运算。

这就如同一些公司的领导，他们可能在各个技术领域都做到比较精通。但是一个公司仅仅只有这样的什么都可以做的领导是不行的，因为领导的价值并不只是体现在一线执行能力上，还包括调度能力。

CPU是一个拥有多种功能的优秀领导者。它的强项在于“调度”而非纯粹的计算。

而GPU则可以被看成一个接受CPU调度的“拥有大量计算能力”的员工。

3.4 CPU的发展瓶颈

可以见得CPU的主频在2000年以前还是符合摩尔定律的。

但是在2005年左右，各大厂商都没有投放更高主频的CPU（理论上现在主频应该达到10GHz了），有的反而进行了降频。为什么？

（1）CPU的主频发展在当前环境下已经接近极限，而且功耗也会随着主频增加而增加。

（2）通过增加核数提升了性能，最近10来年，市面上桌面版intel系列CPU还是集中在2、4、8核心数。

3.5 intel CPU的型号与选择

市面上台式机CPU目前主要分为intel和AMD两大品牌，虽然只有两家，但是在产品的竞争中，战场硝烟从未停止，尤其是AMD近几年推出锐龙产品，对标intel家酷睿，利用性价比优势抢占了部分市场份额。那么目前热门性价比CPU有哪些型号？

盘点目前热门性价比CPU有哪些型号？2019年主流级台式机CPU推荐

Inetel的CPU分为高中低端：

如今的酷睿系列处理器已经到了11代了，酷睿系列队伍从i3、i5、i7扩充到了i9和X。

最低端的G系列，然后是低端i3系列，中端i5系列，高端i7系列和至尊i9系列。

为了不至于过早的遭到淘汰，可以选择i7系列：8核。

3.6 CPU选择的注意事项

人们常犯的最大错误是：

（1）花太多的时间纠结CPU的PCIe通道数（外设的访问速度）

其实，你并不需要太在意CPU的PCIe通道数。取而代之的是，应该注重你的CPU和主板的组合是否能够支撑起想要运行的GPU数量。

CPU和PCI-Express(新一代总线接口)

很多人痴迷于PCIe的通道数。然而，事情的真相是PCIe（的通道数）几乎不会影响深度学习的表现。如果你只有一个单一的GPU，PCIe通道唯一的作用是能够快速地将数据从你的CPU 内存中转换到GPU 内存中。但是，一个具有32张图片的ImageNet数据集批次（数据集的shape为32*225*225*3）和32位模型，在16通道PCIe上训练需要1.1毫秒，在8通道上需要2.3毫秒，在4通道上需要4.5毫秒。这些仅仅是理论上的数值，而在实际中你常常会发现PCIe会比理论速度慢上两倍——但是它仍然像闪电一样快。PCIe 通道的延时通常在纳秒范围内，因此其延时问题可以被忽视。

综上考虑后，我们提出了使用152层残差网络训练一个具有32张图片的小批量ImageNet数据集所需的时间，如下所示：

向前传播和向后传播用时：216毫秒(ms)
使用16通道PCIe将数据从CPU内存转换到GPU内存用时:大概2ms(理论上1.1ms)
使用8通道PCIe将数据从CPU内存转换到GPU内存用时:大概5ms（理论上2.3ms）
使用4通道PCIe将数据从CPU内存转换到GPU内存用时:大概9ms（理论上4.5ms）

因此将4通道的PCIe换成16通道的PCIe将给你的训练表现带来大概3.2%的提升。然而，如果你的pyTorch数据下载器含有CUDA页锁定内存，那么（改变PCIe的通道）其实给你的训练表现带来的提升是0%。所以如果你仅使用1个GPU，那么不要把你的钱浪费在PCIe上！

当你在选择CPU的PCIe通道和主板PCIe通道时，（一定要）明确所选的CPU和主板组合能够支持期望的GPU数量。

如果你买了一个支持2个GPU的主板，并且你最终确实需要用到2个GPU，那么就需要确认你购买的CPU能够支持2个GPU，而没有必要纠结PCIe的通道数。

PCIe通道数和多GPU并行

如果你在多GPU上并行的训练数据时，PCIe的通道数是重要的吗？

如果你有96个GPU那么PCIe的通道数确实非常重要。

然而如果你只有4个或者更少的GPU，那么PCIe通道数的影响不大。

如果在两到三个GPU上训练，完全不会关心PCIe的通道数。

由于大多数会在超过4个GPU上面运行一个系统，那么记住一个经验准则：不要为了在每个GPU中得到更多的PCIe花额外的钱——这没有必要！

（2）第二个最常见错误是购买功能过于强大的CPU。

所需的 CPU 核数

为了能够在CPU上作出明确的选择，我们首先需要了解CPU以及它和深度学习间的关系。

CPU为深度学习做了什么？

当你在一个GPU上运行你的深度网络时，CPU仅进行很简单的运算。它主要主要(1)启动GPU函数调用，(2)执行CPU函数。

目前，CPU最大的应用是数据预处理。常用的两种数据预处理策略有着不同的CPU需求。

一种策略是在训练过程中进行预处理：

循环以下（三个）步骤：

1. 导入小批量数据
2. 预处理小批量数据
3. 训练小批量数据

第二种预处理策略是在训练之前进行预处理操作：

1. 导入数据
2. 循环以下（两个）步骤：
1）导入小批量数据
2）训练小批量数据

对于第一种策略，一个多核CPU可以明显地加强训练表现。

对于第二种策略，你不需要一个很好的CPU。

对第一种训练策略，建议每个GPU至少有4个线程——通常每个GPU有两个核心。

对于第二种策略，建议每个GPU最少有2个线程——通常每个GPU有一个核心。

如果你使用第二种策略，那么更多的内核并不会给你带来明显的性能提升。

因此：

1个GPU时，CPU核数需要4核
2个GPU时， CPU核数需要8核

所需的 CPU 主频（时钟频率）

当人们考虑（购买）快速的CPU时，他们通常首先查看时钟频率。4GHz的CPU比3.5GHz的好，是吗？这对于比较具有相同结构的处理器来说通常是正确的，例如“Ivy Bridge微架构”，但是对于不同架构的处理器来说这并不好比较。此外，CPU主频并不总是衡量性能的最佳方法。

在深度学习中CPU仅仅做一些微不足道的计算：增加一些参数，评估布尔表达式，在GPU或程序内进行函数调用——这些都取决于CPU核心的时钟频率。

虽然这些理由看似合理，但是当我运行深度学习程序时却发现CPU使用率为100%，那么这是为什么呢？为了找寻答案，有人做了一些CPU降频实验。

在MNIST和ImageNet数据集上的GPU降频实验：不同CPU时钟频率的性能以训练200个epoch的MNIST数据集和50个epoch的ImageNet数据集所花费的时间来衡量，其中最大的时钟频率作为每个CPU的基线。作为比较：从GTX 680升级到GTX Titan的性能提升约为 15％; 从GTX Titan到GTX 980又提升20％的性能; GPU超频可为任何GPU带来5％的性能提升。

值得注意的是，这些实验是在落后过时的硬件设备上进行的，然而，对于现代的CPU/GPU它的结果仍然不变。

总之，CPU的频率最训练的性能影响非常小。

第4章台式机的内存选择

4.1 内存

购买内存最大的错误就是买了主频太高的内存。

第二个错误是没有购买足够大的内存，导致在原型构建上出问题。

（1）需要的主频

主频是内存公司引诱你购买“更快”的内存的一种营销手段，实际上几乎没有产生任何性能的提升。这个关于RAM的视频很详细地解释了内存在Linux上的技术窍门：内存速度真的重要吗？

此外，重要的是要知道内存速度与快速CPU RAM-> GPU RAM传输几乎无关。这是因为（1）如果你使用固定内存（pinned memory），那么你的mini-batch会直接传输到GPU中而不需要CPU的干预，（2）如果你不使用固定内存的话，快的和慢的内存获得的性能差别只有0-3%——把你的钱花到别处去！

（2）内存大小

内存大小不会影响到深度学习的性能。

但是，它可能会阻碍你轻松执行GPU代码（无需交换到磁盘）。

你应该有足够的内存来愉快地配合GPU工作。

这意味你至少应该有匹配GPU的内存大小。比如说，如果你有一张24GB显存的Titan RTX，那你至少应该有24GB的内存。

但是，如果你有多块GPU的话，你不需要更多的内存。

“在内存上匹配最大的GPU显存”策略在于，如果你在处理大数据集时，你可能够还是会内存不足。最好的方式是和你的GPU匹配，如果你觉得内存不够，再买更大的内存。

通常情况下，32G的内存可以了。

第5章台式机的硬盘选择

一般来说硬盘不是深度学习的瓶颈。主要的影响，就是硬盘的文件到内存的读取的效率。

5.1 HDD机械硬盘

5.2 SSD固态硬盘

固态硬盘（Solid State Disk或Solid State Drive，简称SSD），又称固态驱动器，是用固态电子存储芯片阵列制成的硬盘。

普通硬盘为机械硬盘，从生产效率来说，选择SSD，因为程序启动反应更快，大文件的预处理速度也更快。另外，NVMe SSD会带给你更好的使用体验。

5.3 比较

（1）两者最大区别是固态硬盘由多个闪存颗粒和主控芯片组成，没有运动结构设计，而机械硬盘采用的是碟盘和读写磁头组成；

（2）固态硬盘读写速度快：采用闪存作为存储介质，读取速度相对机械硬盘更快。固态硬盘不用磁头，寻道时间几乎为0，持续写入的速度较高；

（3）固态硬盘防震抗摔性好：传统硬盘都是磁碟型的，数据储存在磁碟扇区里。而固态硬盘是使用闪存颗粒（即mp3、U盘等存储介质）制作而成，所以SSD固态硬盘内部不存在任何机械部件；这样即使在高速移动甚至伴随翻转倾斜的情况下也不会影响到正常使用，而且在发生碰撞和震荡时能够将数据丢失的可能性降到最小。相较传统硬盘，固态硬盘占有绝对优势；

（4）固态硬盘低功耗：固态硬盘的功耗上要低于传统硬盘；固态硬盘无噪音：固态硬盘没有机械马达和风扇，工作时噪音值为0分贝。基于闪存的固态硬盘在工作状态下能耗和发热量较低（但高端或大容量产品能耗会较高）。内部不存在任何机械活动部件，不会发生机械故障，也不怕碰撞、冲击、振动。由于固态硬盘采用无机械部件的闪存芯片，所以具有了发热量小、散热快等特点；

对于深度学习，是什么内存，对训练性能的影响不大。

5.4 硬盘大小

由于数据集需要加大的内存空间，最好选择500G以上的硬盘。

第6章电源PSU

6.1 电源的功率需求

你得确保你的电源能够满足所有预留GPU的功率需求。

一般来说，GPU能耗会越来越低，所以不用更换电源，买个好的电源是个值当的买卖。

在计算需要的功率时，你最好加上所有CPU和GPU功耗的10%作为功率峰值的缓冲。举个例子，你有四个250瓦的GPU和一个150瓦的CPU，那我们需要一个最少4×250 + 150 + 100 = 1250瓦的电源。一般我会加上至少10%来确保一切正常，那么在这种情况下一共需要1375瓦。最后需要买一个1400瓦的电源。

你得注意有些电源即使达到了要求的功率，但是没有足够的8针或者6针PCIe插槽接口。你得多多注意这点。

另外请尽量购买高功率功效的电源——特别是你运行多个GPU且长时间运行。

满负载运行一个4GPU系统（1000-1500瓦）来训练卷积神经网络两周会消耗300-500千瓦时。

鉴于此，如果GPU的个数超过1，就不建议在个人电脑上进行训练了，可以选择利用公司的资源进行训练。

第7章 CPU 和 GPU 的冷却系统

冷却非常重要，是整个系统中一个重要的瓶颈。

相比较于糟糕的硬件选择，它更容易降低性能。

对于CPU，你可以使用标准散热器或者一体化（AIO）水冷解决方案。

但是对于GPU，你需要特别注意。

风冷 GPUs

如果你有多颗GPU并且他们中间有足够的空间（在3-4颗GPU的位置放置2颗GPU），风冷是安全可靠的。

当你想去冷却3-4颗GPU的时候，可能会犯一个巨大的错误。这时候你需要认证考虑在这个案例中的选择。

运行一个算法的时候，现代GPU会提高他们的速度以及功耗，直至最大值。

一旦GPU达到温度临界值（通常为80°C），GPU就会降低运算速度防止达到温度阙值。这样可以在保持GPU过热的同时实现最佳性能。

对于深度学习程序而言，典型的风扇速度预编程时间表设计得很糟糕。启动一个深度学习程序后几秒钟就会达到温度阙值，结果就是性能会下降0-10%。多个GPU之间相互加热，性能会下降的更明显（10%-25%）。

因为 NVIDIA GPU 在大部分情况下是作为游戏 GPU，它们对windows进行了优化。在Windows中点一点鼠标就能改变风扇计划的方式在Linux中行不通。可是大多数深度学习库都是针对Linux编写。

如果你有一台Xorg服务器（Ubuntu），唯一的选项是用“coolbits”来设置温度。对于单个GPU来说，这种方法非常奏效。当有多个GPU的时候，其中一些没有监视器，模拟出监视器来监测他们是很艰难晦涩的工作。我曾经花过很长的时间尝试使用实时启动CD来恢复我的图形设置，但是从没有在无监视器GPU上成功运行过。

在风冷系统下运行3-4颗GPU需要尤其重视风扇设计。“鼓风机式”风扇设计让冷风进入GPU，然后从机箱背部吹出热风。“非鼓风机式”风扇吸入GPU附近的空气来冷却它。但是如果是多颗GPU，那么它们的周围就没有冷空气，使用“非鼓风机式”风扇的GPU会越来越热，最终通过降低性能来降温。我们应该不惜一切代价来必变在3-4颗GPU的环境中使用“非鼓风机式”风扇。

多GPU使用的水冷系统

另一种更棒更昂贵的方式是使用水冷系统。如果你只有一颗GPU或者两颗GPU之间有足够的空间（比如在3-4颗GPU的主板上有两颗GPU），不建议使用水冷系统。

在4GPU配置中，水冷保证即使最强劲的GPU也能保持低温，而这在风冷中是不可能实现的。水冷的另一个优点是运行很安静，这对于在公共区域运行多GPU来说是一个巨大的优势。

每颗GPU需要100美金的成本安装水冷，另外需要一些额外的前期成本（大约50美金）。组装有水冷的计算机也会需要一些额外工作，但是不用担心，会有详细的指南来指导你安装，仅仅需要你多付出几个小时。维护工作也没有那么的复杂费力。

一个冷却的案例

大型的塔式服务器在GPU位置有额外的风扇，所以我为深度学习集群购买了他们。然后我发现太不划算了，只下降了2-5°C却要付出大量的投资。最重要的部分是直接在GPU上安装冷却系统，完全没必要为冷却系统买贵不啦叽的壳子。

冷却的总结

对于一个GPU来说，风冷足够了。如果你有多个GPU，你可以在接受性能损失（10% - 15%）的情况下使用“鼓风式”风冷系统，或者花更多的钱购置水冷系统，虽然难以设置但是它可以保证没有性能损失。对于不同的场景，我们可以因地制宜选择风冷或者水冷。我建议使用风冷就好--使用“鼓风式”GPU。如果你想使用水冷，请使用一体化水冷（AIO）方案。