从节能角度看数据中心软硬件设计(二)

从节能角度看数据中心软硬件设计(二)

-PMC公司资深顾问、前Facebook存储架构设计师、

OCP创始人之一Per BrasherCCCC演讲实录-

   接下来,针对数据中心数据保护问题,提出几个新的观点。过去可能大家都很熟悉三个备份的实现方式,在软件上实现非常简单。为了让一个数据非常可靠,除了本地存一份,机架存一倍,跨越机架再存第三份,一共需要三个备份的存储容量,带来的成本开销很高。取而代之的则是纠错编码。每个数据需要分解成10份,再分出两份纠错编码,然后把这12份数据打散分布在不同的节点。看上去纠错编码很美,开销只有1.2倍,大大节省了成本。然而,如果某一个节点发生故障,重构的开销是非常大的,因为需要从10个节点把数据读出来,再重新计算,然后重新解读12份数据。不仅重构时间很长,而且重构时对整个集群中CPU的冲击和网络带来的麻烦都非常恼人。由于重构时间长,或者当一个盘或一个节点丢失时,重构数据量非常之大。故而,纠错编码存在很多的问题,故障恢复时间相比传统的三个备份方案大大下降了。

     新的理念是,如果不想存三份该怎么办?其实有一个很现成的办法,如果在节点内,则依然采用传统1415R5的方法,跨越节点之间则用纠删码。双层保护带来的结果是R5可以保护节点内部盘这一级的故障。由于整个节点丢失的概率远远低于硬盘故障的概率,需要用纠删码恢复数据的概率大大缩减了,从而提高了整体数据可靠性,开销保持在1.27倍的范围。这是一个典型的将传统技术与新技术的结合以焕发新生的例子。

     这幅图对上述理念进行了图形化的展示。以上传照片为例,照片在应用层切分成10份,同时用纠删码计算出来2份数据,用于额外的校验,一共12份,存放到不同的节点,再用R5做数据保护。在这种机制下,任何一个节点单盘的丢失,不会造成纠删编码的数据重构,可以说是对机群性能没有任何影响,甚至多个节点同时发生单盘丢失都没有任何问题。而当一个节点同时出现多盘故障,或这个节点掉线等非常小概率事件发生时,才用纠删编码将临近的10个节点数据读回来重新计算。

     至于部署SSD的原因,许多人一贯认为最根本的是IOPS,直观的认识是SSD一定会比HDD贵,其实不然。在很多应用里,尤其是对IOPS要求高的应用中,成本实际上非常低廉。比如说冷闪存,其实也适合特定应用——并非所有的SSD应用都是一致的。举例而言,有些应用更新或者写的概率非常小,但可能需要读非常多次。如视频点播或CDN内容推送等,可能更新频度非常小,但是数据放置着,需要大量的读取。也有些相对比较“冷”的数据,其实也有很多用处,在驱动着SSD的部署和应用。

    目前OCP应该是一个解耦合的实验平台,其间体现了一个问题。Facebook有很多种不同的应用,每一种应用相对所谓优化的资源配比是非常不一样的,包括CPU的种类、内存的大小、是不是有SSD,以及盘的种类和数量等等。在所谓物理解耦合的阶段,虽然尚未达到资源动态调配的能力,但尽量做了最大努力来精减硬件设计的种类。举个例子来说,6种不同的服务器,其实共享着同样的主板设计,只是在不同的主板上安装了不同的CPU和内存条——这代表了当前这个时间点的发展现状。再往前走,下一代的发明会是什么样,就有很多的想象空间。比如说CPU可能会采用不同的CPU种类,可能有不同的SSE出现等。存储如果通过交换矩阵解耦合就需要引入SAS交换网络或其他交换网络。SSD要做解耦合,就涉及到NVMe PCIe怎么在机架上交换等等。

    下图则展示了另外一个分析角度,观察一下主机上的CPU和盘数量的比例,从115160一直到1240,纵轴标志着3年的运营成本。当CPU和盘的比例非常大的时候,亦即盘的数量很多时,成本下降非常可观。第二点,这两条曲线代表普通的硬盘在不同的CPU和硬盘配比条件下带来的成本开销比例。

     这说明什么问题呢?首先,CPU和盘数量的比例直接影响到TCO。其次,存储介质的类型和存储介质的进一步改进很有意义。比如说SMR的产生即是出于对容量的追求等原始推动力,包括冷存储需要大容量时,很可能需要采用新的存储介质、新的存储方式。这个比例如果精确地控制好,那么能用160或者135达到目标时,就不要用130,因为此配比直接影响到TCO。前面讲的解耦合和动态分配的理念,都可以直接体现在成本上面。成本的精细分析,需要参考不同的分析角度。

     同样的板级设计就可以支持115一直到1240的配置。正应验了前面那张图,在应用环节当中,CPU和盘的配比的选择非常精细,并且需要具体的实现机制来达到所希望的配比要求。

     如何管理数据量非常庞大的盘?无非有三种方式。第一种方式就是主机直连,这是绝大多数互联网公司采用的最主流的方式。这种方式有一系列好处,十分易于安装、易于管理,但是线及配比相对固定。如果要做解耦合,需要做动态的资源分配,势必要引入某种交换的体系。从今天已经成熟的硬件技术来看,无非是SASIP交换架构。SAS有非常高的性能,SAS交换和主机直连性能是一样的,基本没有损失,并且可以动态地随意调整盘和CPU的配比,端口密度也很高。显然,构架设计还需要在故障率及包括主机的热插拔等方方面面全盘考虑,从而找到完善的一揽子方案。

     IP交换的构架就是以太网,可以利用现有的布线,如果是传统的SAS盘,本身没有IP的接口,就需要引入一个微服务器,对其进行转换和管理。针对每一个服务器、微服务器,均涉及到需要跑一个操作系统、或文件系统,其中又引入了性能瓶颈、相应成本及软件开发管理等不少问题。

         回过头来看看为什么要关心数据中心的效率。答案还是落到经济考量上。通过改善数据中心设计,可以得到30%TCO下降,直接等同于降低了整个公司的运营成本。怎么样实现这样的效率提升呢?其实并没有一锤子买卖,而需要一个非常全面综合的设计。基本上,数据中心从建筑本身到空调、到散热、到配电、到服务器的设计、再到服务器内部的模组设计等等各个方面,都需要做整体的优化,只有通过综合的努力,才能达到最理想的效果。

    实践的关键在于要把效率的理念深刻地体现在整个软件硬件、包括基础设施的设计理念当中,使之成为一个强大而持久的驱动力。进一步的体系结构改良可能发生在软件层面,也可能是硬件层面,更可能是更进一步的结合,才能达到TCO的进一步降低。采用纠删码进行双重数据保护即是选择之一,在不损失性能的前提下,将存储所需能量从3倍降到1.27倍,从而降低设备和运维成本。

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值