SupremeRAID™ with OpenFlex™ Data24 - 武汉大盈科技有限公司

本白皮书结合西部数据OpenFlex Data24 NVME-oF存储平台,探讨了Supermeraid SR-1000 NVME-oF™ RAID卡的性能基准。

簡介

在软件可组合基础设施(SCI:Software-Composable Infrastructure)中,计算、存储和网络资源是从它们的物理位置抽象出来的,并且通常通过基于web的接口由软件进行管理。SCI使数据中心资源像云服务一样随时可用,是私有云和混合云解决方案的基础。随着NVMe™SSD和NVMe- of™技术的出现,SCI可以在不牺牲性能和延迟的情况下分解存储资源。随着NVMe SSD技术的快速发展,出现了一个重要的性能瓶颈—RAID数据保护。

RAID配置

在执行RAID计算时,用户在使用上有以下两种选择:

  • 軟件RAID:操作系统所搭配软件RAID ,例如 Linux®上的MDADM 
  • 硬件RAID :例如,RAID控制卡

软件RAID

操作系统软件RAID提供独立的解决方案,支持多种介质类型(HDD / SSD)和协议(SATA、SAS、NVMe)。操作系统软件RAID的挑战通常是低性能和高CPU资源成本。顺序带宽,特别是读带宽,可以达到高性能水平,但顺序写需要进行保护计算。小块I/O模式通常具有更低的RAID性能级别,从而使此选项通常可用。总而言之,该选项具有网络附加存储设备所需的协议独立性,但缺乏所需的性能。

硬件RAID

硬件RAID很方便,因为SAS适配器卡可以将其提供给与外部机箱中的存储一致的客户端。在硬盘时代,RAID卡上的简单ASIC足以处理所有I/O——毕竟,即使使用SAS机械硬盘,最大性能也只有200 IOPS和150MB/s左右的吞吐量。然而,单个NVMe SSD固态硬盘 现在可以提供大约1M IOPS和 7GB/s 的吞吐量。硬件RAID卡从较慢的 HDD 到更高性能的 NVMe SSD的适应速度很慢。这种转变已经正在发生,并且在使用SSD时可以提供更高的性能水平。这些硬件RAID方案的挑战在于它们只能与它们的本地物理协议(一般为PCIE )一起使用。它们不能与网络连接的设备一起使用,也不能完全或有效地扩展性能。总而言之,这些硬件RIAD方案可能具有所需的本地性能,但不提供在网络连接设备上工作的协议独立性,严重限制了它们在现代软件可组合基础设施或高性能应用程序中的用途。这些考虑也阻碍了它们在这些基准测试中进行测试。


在本文中,我们讨论并测试了第三种选择: 硬件加速软件RAID。此选项提供协议独立性和网络附加Flash存储所需的高性能。基于gpu的硬件加速软件RAID实现复杂的RAID级别(如RAID 5 和 RAID 6),同时在NvME SSD 固态硬盘中保持高性能的挑战通常是奇偶计算。硬件RAID奇偶校验计算使用ASIC内的硬件引擎,而软件RAID只能使用CPU的指令集,其性能通常有限。将CPU密集型奇偶校验计算卸载并并行化到硬件加速器上通常可以解决这个问题。有几个潜在的硬件引擎可以进行这些计算。

第一种选择是利用CPU扩展(例如Vector/SIMD)来卸载和并行奇偶校验计算,以提高RAID性能。

第二种选择是在专用硬件加速器(如GPU (DPUs)或FPGA)上卸载和并行这些计算。我们在这里提供了在该项目中测试的基于GPU的RAID解决方案SupremeRAID™SR-1000。下图提供了其实现的框图。

虽然基于GPU的解决方案很有前途,但每个服务器都需要一个GPU。在撰写本文时,这些技术的商用解决方案有限,但有几种矢量和FPGA解决方案可用。

解决方案组件


在这个项目中,我们选择了Supermeraid SR-1000 NVMe-oF RAID卡作为性能基准,并结合西部数据OpenFlex Data24 NVMe-oF存储平台。

硬件及软件概述

下表提供了此测试中使用的组件列表。

OpenFlex Data24 NVMe-oF存储平台

西部数据的OpenFlex Data24 NVMe-oF存储平台类似于2.5英寸SAS JBOD机箱。使用西部数据超星DC SN840 15.36 TB设备时,提供24个NVMe硬盘槽位,最大容量为368 TB。与SAS机箱不同,Data24的双IO模块使用西部数据RapidFlex™C1000 NVMe-oF控制器。这些控制器允许通过多达6个100GB以太网端口完全访问所有24个NVMe SSD。Data24是传统SAS机箱的完美替代品。然而,与这些机箱相比,Data24提供了一个显著的优势:能够直接集成到以太网结构中,允许对象存储目标到对象存储服务器的任意对任意映射。

OpenFlex Data24设计将NVMe SSD的全部性能展示给网络。采用24台Western Digital Ultrastar DC SN840 3.2 TB设备,在4K块大小下可实现高达71 GB/s的带宽和超过15 MIOPS。

Supermeraid SR-1000 NVMe-oF RAID


Supermeraid SR-1000 PCIe 3.0/4.0 卡为AI加速计算、AFA (All Flash Array)和HPC (High performance Computing)应用提供SSD性能。专为Linux和Windows®操作系统,它支持RAID级别0/1/10/5/6/ JBOD,而核心软件许可证支持多达32个本地NVMe 固态硬盘。Supermeraid SR-1000支持NVMe/NVMe- of、SAS 和 SATA性能,同时增加可扩展性、提高灵活性和降低TCO。该解决方案消除了传统大容量存储的RAID瓶颈,为高强度工作负载提供最大的SSD性能。下表显示规格表数据。

Supermeraid SR-1000规格表数据

基准测试基础设施

OpenFlex Data24

每个IO模块可提供一到三个端口。每个Data24有两个IOM模块。端口与IOM模块的比例将影响驱动器到端口映射选项。这个基准测试使用的配置是每个IO模块三个端口。在此配置中,每个IO Module端口最多可访问8个物理驱动器。每个物理设备最多可以有8个名称空间。每个设备都有一对端口,每个IO模块一个端口,如下图所示。

 

  • 西部数据Ultrastar DC SN840设备为双端口NVMe驱动器。这种架构允许使用通往设备的两条路径,从而最大限度地发挥该设备的性能潜力。
  • 6台服务器均包含一个SupermeRAID SR-1000 和 Mellanox®CX5 RDMA RNIC网路卡。
  • 该配置允许单个路径到前端IO模块端口和该端口提供的8个物理硬盘接口。在本例中,每个设备有两个名称空间。访问共享设备的每个服务器对都被分配到该设备的两个名称空间之一。
  • 此配置被认为是non-HA; 因此,这个基准测试没有使用冗余路径或多路径。
  • 服务器直接连接或通过交换机连接。这两种实现对性能的影响都很小。

基准测试方法

使用 Flexible IO (FIO)软件作为工作负载生成器。SupremeRAID SR-1000解决方案使用标准的OpenFlex Data24规格表流程。
基本上,这个过程有两个阶段——使用128K块(测量带宽)的顺序读写阶段和使用4K块(测量IOPS)的随机读写阶段。
我们运行了三次测试软件并取了结果的平均值。
此外,我们使用变异系数(COV)检查了过度变异性。研究并解决任何极端变异性。
如果存在明确的原因,例如测试错误、外部中断等,则可能需要进行额外的测试。

测量性能- 4K随机IO读写

第一个基线测试(没有模拟故障)使用FIO运行,并测试了4K随机读取、随机混合和随机写入。结果如下图所示。

基线(理论值)-Base Line

6个服务器,每个服务器连接到8个没有RAID的命名空间,建立了一个性能基线。基线的综合结果显示,4K 随机读取的IOPS为 15.3M,4K 随机混合读写 的 IOPS为 12M,随机写入的IOPS为6.26M。这些结果符合预期,因此可以作为随机IO测试的良好基线。我们将所有RAID结果与基线(理论值)进行比较。

SupremeRAID RAID 5

我们用SupremeRAID SR-1000解决方案进行了相同的测试。我们在每台服务器上创建了一个单独的8个命名空间的RAID 5 (7+1)结构,结果显示4K随机读取的IOPS为15.3M,4K随机混合读写的IOPS为6.17M,4K随机写的IOPS为2.6M。
随机读取IOPS与OpenFlex Data24基线结果相匹配,并在验证测试基础设施时演示了具有4K随机读取工作负载的SupremeRAID非阻塞架构。随机混合和随机写工作负载显示了与RAID 5相关的预期性能下降。读-修改-写(奇偶校验)计算具有不可避免的计算成本和延迟。

高级软件RAID解决方案

我们还测试了另一个第三方高级基于软件的RAID解决方案(利用高级CPU指令集功能)。同样,我们在六台服务器上创建了一个RAID 5(7+1)结构,结果显示4K随机读取的IOPS为12.2M ,4K随机混合的IOPS为5.83M,随机写的IOPS为2.21M。

在所有情况下,高级软件RAID解决方案的性能都不如SupremeRAID SR-1000 解决方案。

 

  

测量性能- 128K顺序IO读写测试

接下来,我们在前面描述的精确配置上运行大块(128K) Spec Sheet Sequential Benchmark。结果如下图所示。

基线(理论值)-BASE-LINE

Spec Sheet Sequential BASELINE在128K顺序读时达到71.5 GB/s,在128K顺序写时达到39.6 GB/s。这些结果符合Data24的预期,因此可以作为顺序IO测试的良好基线。我们将所有RAID结果与基线进行比较。

SupremeRAID RAID 5

在本例中,128K顺序读取的结果为61.4 GB/s,低于基线中演示的71.5 GB/s,并且与下面的高级软件RAID结果相比,这些结果要慢12%。这种减速不是由于奇偶性计算,因为读取没有奇偶性计算。较低的SupremeRAID顺序读性能是因为所有数据都以4K块的形式从GPU流向SSD,这需要对所有非4K IO进行解阻塞和重新阻塞。
128K顺序写入结果为30.3 GB/s,比高级软件RAID结果(20.3 GB/s)高出49%,清楚地展示了将计算(奇偶校验)计算从CPU卸载到基于软件的GPU架构的优势。

 

表现及效率


SupermeRAID (NOMINAL)正常工作状态的结果与基线(理论值)的比较


下面,我们将三种SupremeRAID卡 操作状态 (正常工作、设备故障或设备重建)的性能与基线(理论值)解决方案进行比较— 在6x8n配置(六台服务器,每台服务器使用八个名称空间)中,使用24台SN840 3.2TB设备的Data24 FW4.0 (每个设备有两个名称空间)。所有比较都是将SupremeRAID STATE(正常工作、设备故障或设备重建)与基线(理论值)进行比较。

下图中的第一个面板显示了4K随机写入(R.W.)、随机混合(R.M.)和随机读取(R.R.)在分别为6.26、12.00和15.30 MIPS时的基线总体性能。

第二个面板显示了SupremeRAID在4K 随机写入(R.W.)、随机混合(R.M.)和随机读取(R.R.)下的标称性能,分别为2.60、6.12和15.30 MIOPS。

•SupremeRAID 正常工作符合15.30 MIOPS的基线(理论值),并且该测试表明,SupremeRAID 正常工作对于此工作负载是透明的。

•除此之外,在4K 随机写入(R.W.) 和 随机混合(R.M.)工作负载下,基线(理论值)的性能分别比SupremeRAID 正常工作 高出58%和49%。

按照WORK/CPU%来衡量,对于4K随机读取(R.R.)工作负载,SupremeRAID 正常工作的效率比基线(理论值)高23%。除此之外,对于4K随机写入(R.W.) 和 随机混合(R.M.)工作负载,基线(理论值)的效率分别比SupremeRAID 正常工作高22%和7%。

数据还显示理论值在延迟方面优于SupremeRAID 正常工作(即RAID 5增加了延迟)。尽管如此,COV(变异系数)和CPU百分比(usr+sys)对于SupremeRAID 正常工作来说更好。

观察:

•在许多环境中,RAID 5可以通过防止RAID集中单个设备故障来抵消性能损失。

•如果没有RAID 5,将不得不采用其他数据保护方法,这可能比RAID 5解决方案更昂贵,更复杂,并且可能对生产工作负载造成更大的破坏。

Supermeraid设备故障vs基线


在这个测试中,我们从RAID 组中移除一个硬盘,然后运行Spec Sheet Random基线(理论值)测试。常见的SupremeRAID控制命令将设备从RAID集中移除,以模拟故障设备,如下表所示。我们继续将SupremeRAID设备故障状态下性能与基线(理论值)性能进行比较。原因如下:
•整个RAID生命周期(正常工作、设备故障或设备重建)的性能可能会相对于基线(理论值)有所不同。
•与众所周知的基线(理论值)进行比较是明智的——这可能是客户当前的解决方案,即基线(理论值)。最后一个面板显示,在4K 随机写入(R.W.)、随机混合(R.M.)和随机读取(R.R.)下,SupremeRAID 故障状态下性能分别比基线(理论值)低62%、62%和44%。所有这三个都是基线(理论值)的重要影响。
•但我们必须记住,这个解决方案消除了单点故障。
•替代方案的成本和复杂性可能很高,而且耗时。supermeraid 故障状态下有:
•更高的延迟但更低的COV,即更稳定。
•所有三个测试的CPU (usr+sys)降低50%。
每CPU%的效率,如最右边的列所示,是通过IOPS工作除以生成此工作负载所需的CPU百分比计算得出的。此计算提供了每个CPU%的IOPS数,如前两个面板中最右边的列所示。
•第三个面板是每个工作负载的SupremeRAID和基线(理论值)的比率,而第四个面板将最后一个面板转换为百分比差异。
•对于4K 随机读取(R.R.)工作负载,supermeraid的CPU效率比基线(理论值)高出16%。
•4K 随机写入(R.W.)、随机混合(R.M.).工作负载的基准CPU效率分别提高23%和16%。

   

Supermeraid设备重建vs.基线(理论值)
 


在本节中,将前面测试中失败的设备重新添加进来。然后,重新构建过程开始,并运行标准Spec Sheet Random Benchmark,如下表所示。
三种IO类型的标准工作负载各耗时20分钟。重新构建以最高性能运行,并在85分钟内完成(比标准工作负载长25分钟)。
如前所述,MIOPS列分别显示了面板1和面板2中基线和SupremeRAID的三个工作负载的性能。
在较高的水平上,在吞吐量或效率方面,SupremeRAID 正常工作、设备故障或设备重建的状态下, 之间没有太大的性能差异。

那些考虑RAID 5解决方案的人必须能够以最低的SupremeRAID性能满足他们的服务水平,或者通过工作量减少或延迟、故障转移等来增强RAID 5。
有两个基本的业务连续性和灾难恢复(BCDR)目标:
•恢复时间目标(RTO)
•恢复点目标(RPO)

RAID 5基本上解决并消除了RTO和RPO,假设只有一个故障设备。当然,一个全面的BCDR包含许多元素,但是一个计划良好且规模合理的RAID解决方案可以管理单个设备故障实例。

配置性能汇总


接下来,我们在前面描述的精确配置上运行大块(128K) Spec Sheet Sequential Benchmark。结果如下图所示。

下一节中的性能配置摘要和效率配置摘要数据提供了3D和表格数据,总结了我们的标准规格表随机(SSR)基准上的supermeraid SR-1000适配器RAID 5性能。这些数字显示:

基线(理论值)是一台Data24,有24台SN840 3.2TB设备(每台设备有两个命名空间)进行SSR基准测试。上述Data24上的一个SupremeRAID RAID 5 (7+1)实现用于:
•SupremeRAID 正常工作(NOMINAL)
•SupremeRAID 故障(Device Down)
•SupremeRAID 重建 (Device Rebuild)

图表元素的斜率如预期的那样单调递减,从:
•从左到右
•从后往前
•从左后到右前

按配置划分效率


基线(理论值)和SupremeRAID 正常工作状态的随机读取性能相似,约为15.30 MIOPS。但是,由于奇偶校验计算从服务器cpu转移到GPU, SupremeRAID解决方案的效率比基线(理论值)高24%左右。

这一发现在这项研究中是独一无二的。它是通过以下方式实现的:
•将CPU周期移动到GPU和
•高效的SupremeRAID 4K读取管道。
•在三个生命周期(Nominal, Device Down, and Device Rebuild)中,对于每个工作负载(Random read, Random Mixed, and Random Writes), SupremeRAID效率是相似的。

  结论


NVMe-oF存储框 (如OpenFlex Data24) 提供了传统硬件或基于操作系统的软件RAID无法提供的更大程度的性能、灵活性和成本节约。
在这些测试中,除了大块顺序读取之外,该GPU架构在所有领域都优于高级的软件RAID解决方案。
考虑以下几点:
•SupremeRAID SR-1000卡 本质上是使用市售GPU的即插即用解决方案。
•SupremeRAID允许具有竞争力的价格,因为硅架构不是专有的。
•将数据路径与逻辑路径分离的能力增加了价值和灵活性。
•GPU升级或GPU固件升级可以提供新功能和性能改进,可能对操作影响较小
•传统上,通过基于AISC的RAID控制器或CPU计算,数据路径已经成为瓶颈。直接输入输出
CPU和GPU之间的高效连接,并允许GPU的海量计算能力管理数据路径上的RAID计算。
GPU的发布周期是有规律的,随着GPU架构的增强(以及服务器主板架构——比如PCIe第4代),性能应该会得到改善,这是公平的。这种有规律的产品周期,反过来,允许消费者平衡性能要求和GPU的能力——本质上推动了更严格的成本与性能模型。在使用此解决方案时,在服务器体系结构中可以实现一些潜在的好处。传统的硬件RAID无法满足NVMe设备的性能潜力。这种卡的可扩展性很差,并且需要额外的电缆进行设备连接。RAID附加卡(AIC)会增加复杂性和成本,使用额外的PCIe插槽,并干扰气流。基于gpu的RAID解决方案可以减少或消除这些问题。此外,可以释放CPU周期,将其分配到其他地方,或者,如果不需要,可以考虑使用更低规格(更低成本)的CPU。
这个解决方案中的关键问题是使RAID 5(它一直是最理想的RAID配置(添加一个设备以消除单点故障))具有足够的性能,可以用于大多数一般存储需求。SupremeRAID的实现非常简单,不需要对环境进行重大更改。
“SupremeRAID RAID 5生命周期图”和“基线图”展示了RAID生命周期中不同工作负载(Initialization、Nominal、Device Down、Device Rebuild) 的绝对性能和相对性能。潜在的消费者应该了解这些信息来评估SupremeRAID的解决方案的适用性。
包含RAID集和组成设备的SupremeRAID RAID 5生命周期图提供了客户使用的RAID集和组成RAID集的底层组成设备的独特视图。

  • 45
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值