双十二的结束,意味着2023年的所有大促已落下帷幕。双十一全网11386亿元的销售额背后是消费的狂欢,更是一场场数据洪峰,单天猫平台在双十一期间累计访问用户数就已超8亿,数据访问的压力不言而喻。
面对瞬时流量高并发、海量数据查询等应用场景,固态硬盘凭借其高吞吐量、低时延等特征逐渐成为大数据时代下数据存储的重要载体,是当前本地部署的数据仓库产品重要搭载硬件,可满足电商大促场景下大规模数据的存储和查询需求。
为更好应对含电商在内的数据密集型行业对高性能、高可靠存储的要求,忆联特联合国内大数据仓储的佼佼者——南大通用(下称:GBase)共同探索大数据时代下数字化转型存储新方案。
一、GBase 8a MPP Cluster简介
南大通用大规模分布式并行数据库集群系统(简称GBase 8a MPP Cluster),是在GBase 8a系列存储数据库基础上开发的一款Shared Nothing架构的分布式并行数据库集群,具备高性能、高可用、高扩展等特性,可为各种规模数据管理提供高性价比的通用计算平台,广泛用于支撑各类数据仓库系统、BI系统和决策支持系统。
图1:GBase 8a MPP Cluster技术架构图
GBase 8a MPP Cluster采用MPP+Shared Nothing的分布式联邦架构,节点间通过TCP/IP网络进行通信,每个节点采用本地磁盘来存储数据。GBase 8a MPP Cluster系统中的每一个节点都是相对独立的、自给的,整个系统具有非常强的扩展性,可从几个节点扩展到上百节点,满足业务规模增长的要求。
二、忆联在GBase 8a MPP方案下的验证
1●验证环境
本次验证硬件配置:
本次验证软件配置:
本次验证组网规划:
图2:本次GBase 8a MPP组网规划架构图
2●验证方法
▶步骤1:将6块SAS UM511a配置Raid5。
▶步骤2:创建数据库和表使用TPC-H工具评估数据库分析处理能力,需要提前创建数据库和TPC-H内置的8张表;使用TPC-DS工具评估数据库分析处理能力,提前创建数据库和TPC-DS内置的25张表。
▶步骤3:参数调优根据GBase建议进行相关参数调优。
▶步骤4:数据生成TCH-H通过dbgen工具可以通过设置参数生成所需的测试数据,命令参数为/dbgen -C 10 -S 1 -s 3000 –vf;TPC-DS通过dsdgen工具可以通过设置参数生成所需的测试数据,命令参数为./dsdgen -scale 3000 -dir testdata -force -parallel 10 -child 1。
▶步骤5:数据加载数据导入时,在GBASE集群本地节点搭建FTP服务器,通过FTP加载数据。当一个表包含多个数据文件时,将单表的多个数据文件集成一个导入语句中,以单表为粒度分别加载测试数据至8张数据库表中。
▶步骤6:SQL执行独立的客户端,通过业务平面网络与GBase集群通信,使用gccli工具执行TPC-H 22个SQL用例,
参考命令如下:
/home/GBase/gccli_install/gcluster/server/bin/gccli -h 10.28.100.38 -uroot -Dtpch -vvv < query_1.sql。
3●验证结果
本次在GBase 8a MPP场景下验证结果如下:
①、忆联SAS SSD在Raid逻辑卷带宽性能测试下的表现:
图3:忆联SAS盘在Raid逻辑卷带宽性能测试下的表现
在本次测试中,将6个SAS SSD配置Raid5,12块SATA配置Raid50,在Server主机使用FIO测试工具进行128KB顺序读写带宽性能压测。从图3结果表现可知,SAS SSD读写带宽更优,读带宽比SATA有19.6%左右提升,写带宽提升34%左右,展现了SAS SSD在Raid逻辑卷带宽下的绝对优势,可为高并发的业务场景提供稳定、顺畅的数据服务体验。
②、忆联SAS SSD在单盘故障降级&重构读性能下的表现:
图4:忆联SAS SSD在单盘故障降级&重构读性能下的表现
单盘降级读性能是指RAID组在单盘故障或拔出情况下的RAID组逻辑卷读业务性能,重构性能是指单盘故障后,RAID同时进行热备盘数据重构和业务下发时的业务侧性能。本次通过将6块忆联SAS SSD配置Raid5后,在一块SSD故障条件下进行测试。
如图4所示,不管是在单盘降级读性能还是在重构读带宽条件下,SAS盘的表现都优于SATA,单盘降级读性能优于SATA 22.7%左右,重构读带宽性能上比SATA最大有38.4%左右的提升,满足在各种复杂场景下业务不中断、数据不丢失的超高可用性要求。
③、忆联SAS SSD在TPC-DS场景下的表现:
图5:TPC-DS场景下忆联SAS SSD的表现
TPC-DS测试是通过FTP协议加载数据到GBase数据库表。从图5可见,在相同物理硬件环境下,SAS SSD不管是在数据导入还是在SQL用例执行时间上所用时间都略低于SATA SSD,具备一定时间优势,通过降低系统延迟,提供更快的数据访问速度来提升用户体验。
④、忆联SAS SSD在TCP-H场景下的表现
图6:TPC-H场景下忆联SAS SSD的表现
TPC-H测试是通过FTP协议加载数据到GBase数据库表。图6展现了SAS SSD以及SATA SSD在TPC-H测试下的表现,其中SAS SSD总用时略优于SATA SSD,数据导入时间优于SATA约6%,对SQL用例执行时间上相比 SATA SSD降低了3%左右,可为业务系统提供快速、可靠的决策支持服务。
总结:本次验证充分体现了忆联SAS SSD在GBase 8a MPP场景下的性能优势,可有效支持业务高效开展,具备单盘带宽更高,盘故障重构、降级性能更优等特点,不仅可以帮助企业节约硬件采购成本,也可帮助互联网数据中心、运营商解决海量数据下的大数据存储和计算问题,高效处理海量结构化数据。
忆联深耕固态硬盘领域多年,已发布多款高性能、高可靠产品,具备应对复杂的业务环境和数据库挑战的能力,可满足行业用户海量数据处理需求。未来,忆联将持续联合GBase共同打造数字化转型背景下的存储新方案。