从节能角度看数据中心软硬件设计（二）

最新推荐文章于 2022-09-08 12:26:41 发布

PMCChina

最新推荐文章于 2022-09-08 12:26:41 发布

阅读量1.3k

点赞数

分类专栏：存储博文文章标签：数据中心 ocp 能效节能架构设计

本文链接：https://blog.csdn.net/pmc/article/details/37927439

版权

存储博文专栏收录该内容

73 篇文章 7 订阅

订阅专栏

从节能角度看数据中心软硬件设计（二）

-PMC公司资深顾问、前Facebook存储架构设计师、

OCP创始人之一Per Brasher于CCCC演讲实录-

　　接下来，针对数据中心数据保护问题，提出几个新的观点。过去可能大家都很熟悉三个备份的实现方式，在软件上实现非常简单。为了让一个数据非常可靠，除了本地存一份，机架存一倍，跨越机架再存第三份，一共需要三个备份的存储容量，带来的成本开销很高。取而代之的则是纠错编码。每个数据需要分解成10份，再分出两份纠错编码，然后把这12份数据打散分布在不同的节点。看上去纠错编码很美，开销只有1.2倍，大大节省了成本。然而，如果某一个节点发生故障，重构的开销是非常大的，因为需要从10个节点把数据读出来，再重新计算，然后重新解读12份数据。不仅重构时间很长，而且重构时对整个集群中CPU的冲击和网络带来的麻烦都非常恼人。由于重构时间长，或者当一个盘或一个节点丢失时，重构数据量非常之大。故而，纠错编码存在很多的问题，故障恢复时间相比传统的三个备份方案大大下降了。

　新的理念是，如果不想存三份该怎么办？其实有一个很现成的办法，如果在节点内，则依然采用传统14、15的R5的方法，跨越节点之间则用纠删码。双层保护带来的结果是R5可以保护节点内部盘这一级的故障。由于整个节点丢失的概率远远低于硬盘故障的概率，需要用纠删码恢复数据的概率大大缩减了，从而提高了整体数据可靠性，开销保持在1.27倍的范围。这是一个典型的将传统技术与新技术的结合以焕发新生的例子。

　这幅图对上述理念进行了图形化的展示。以上传照片为例，照片在应用层切分成10份，同时用纠删码计算出来2份数据，用于额外的校验，一共12份，存放到不同的节点，再用R5做数据保护。在这种机制下，任何一个节点单盘的丢失，不会造成纠删编码的数据重构，可以说是对机群性能没有任何影响，甚至多个节点同时发生单盘丢失都没有任何问题。而当一个节点同时出现多盘故障，或这个节点掉线等非常小概率事件发生时，才用纠删编码将临近的10个节点数据读回来重新计算。

　至于部署SSD的原因，许多人一贯认为最根本的是IOPS，直观的认识是SSD一定会比HDD贵，其实不然。在很多应用里，尤其是对IOPS要求高的应用中，成本实际上非常低廉。比如说冷闪存，其实也适合特定应用——并非所有的SSD应用都是一致的。举例而言，有些应用更新或者写的概率非常小，但可能需要读非常多次。如视频点播或CDN内容推送等，可能更新频度非常小，但是数据放置着，需要大量的读取。也有些相对比较“冷”的数据，其实也有很多用处，在驱动着SSD的部署和应用。

　目前OCP应该是一个解耦合的实验平台，其间体现了一个问题。Facebook有很多种不同的应用，每一种应用相对所谓优化的资源配比是非常不一样的，包括CPU的种类、内存的大小、是不是有SSD，以及盘的种类和数量等等。在所谓物理解耦合的阶段，虽然尚未达到资源动态调配的能力，但尽量做了最大努力来精减硬件设计的种类。举个例子来说，6种不同的服务器，其实共享着同样的主板设计，只是在不同的主板上安装了不同的CPU和内存条——这代表了当前这个时间点的发展现状。再往前走，下一代的发明会是什么样，就有很多的想象空间。比如说CPU可能会采用不同的CPU种类，可能有不同的SSE出现等。存储如果通过交换矩阵解耦合就需要引入SAS交换网络或其他交换网络。SSD要做解耦合，就涉及到NVMe　PCIe怎么在机架上交换等等。

　下图则展示了另外一个分析角度，观察一下主机上的CPU和盘数量的比例，从1：15、1：60一直到1：240，纵轴标志着3年的运营成本。当CPU和盘的比例非常大的时候，亦即盘的数量很多时，成本下降非常可观。第二点，这两条曲线代表普通的硬盘在不同的CPU和硬盘配比条件下带来的成本开销比例。

　这说明什么问题呢？首先，CPU和盘数量的比例直接影响到TCO。其次，存储介质的类型和存储介质的进一步改进很有意义。比如说SMR的产生即是出于对容量的追求等原始推动力，包括冷存储需要大容量时，很可能需要采用新的存储介质、新的存储方式。这个比例如果精确地控制好，那么能用1：60或者1：35达到目标时，就不要用1：30，因为此配比直接影响到TCO。前面讲的解耦合和动态分配的理念，都可以直接体现在成本上面。成本的精细分析，需要参考不同的分析角度。

　同样的板级设计就可以支持1：15一直到1：240的配置。正应验了前面那张图，在应用环节当中，CPU和盘的配比的选择非常精细，并且需要具体的实现机制来达到所希望的配比要求。

　如何管理数据量非常庞大的盘？无非有三种方式。第一种方式就是主机直连，这是绝大多数互联网公司采用的最主流的方式。这种方式有一系列好处，十分易于安装、易于管理，但是线及配比相对固定。如果要做解耦合，需要做动态的资源分配，势必要引入某种交换的体系。从今天已经成熟的硬件技术来看，无非是SAS和IP交换架构。SAS有非常高的性能，SAS交换和主机直连性能是一样的，基本没有损失，并且可以动态地随意调整盘和CPU的配比，端口密度也很高。显然，构架设计还需要在故障率及包括主机的热插拔等方方面面全盘考虑，从而找到完善的一揽子方案。

　 IP交换的构架就是以太网，可以利用现有的布线，如果是传统的SAS盘，本身没有IP的接口，就需要引入一个微服务器，对其进行转换和管理。针对每一个服务器、微服务器，均涉及到需要跑一个操作系统、或文件系统，其中又引入了性能瓶颈、相应成本及软件开发管理等不少问题。

回过头来看看为什么要关心数据中心的效率。答案还是落到经济考量上。通过改善数据中心设计，可以得到30%的TCO下降，直接等同于降低了整个公司的运营成本。怎么样实现这样的效率提升呢？其实并没有一锤子买卖，而需要一个非常全面综合的设计。基本上，数据中心从建筑本身到空调、到散热、到配电、到服务器的设计、再到服务器内部的模组设计等等各个方面，都需要做整体的优化，只有通过综合的努力，才能达到最理想的效果。

　实践的关键在于要把效率的理念深刻地体现在整个软件硬件、包括基础设施的设计理念当中，使之成为一个强大而持久的驱动力。进一步的体系结构改良可能发生在软件层面，也可能是硬件层面，更可能是更进一步的结合，才能达到TCO的进一步降低。采用纠删码进行双重数据保护即是选择之一，在不损失性能的前提下，将存储所需能量从3倍降到1.27倍，从而降低设备和运维成本。