全闪双活架构如何实现零数据丢失?
2024年7月,一份来自Uptime Institute(全球数据中心标准组织和第三方认证机构)、针对全球企业数据中心的调研《Global Data Center Survey 2024》结果显示,2021-2024年间,50%的数据中心CIO均经受过不同程度的数据中心宕机事件。而平均每5个企业数据中心的宕机事件中,至少有1个会给企业带来100万美元以上直接或间接的损失。
而另一份调研《Annual outage analysis 2024》结果显示,尽管行业在向分布式和基于软件的弹性模型发展,在过去的3-5年里,39%的企业还是在主要数据中心加大了对硬件基础架构的冗余度投入。
存储系统如何通过提升冗余度,以最小的硬件开销,实现存储系统99.9999%(6个9)的可靠度?存储系统架构之间,又存在哪些差异?
“真双活”无惧单点故障
上海川源国产自研“无共享对称式双活(active-active)架构”,基于闪存的物理特性,从架构层面、存储节点层面、盘级层面构建自上而下三维数据保护策略,后续的文章中,我们将为您一一揭秘。
当客户采购基于无共享对称式双活架构的上海川源全闪存储时,上海川源会在交付过程中协助用户进行两个存储节点之间的双活配置。
存储系统包含两个存储节点,前端每台主机和后端存储节点之间,由两条链路相连接,通过链路冗余,避免了网络连接单点故障。每个存储节点包含单独的控制器、磁盘柜,实现网络、计算和存储资源的全冗余。
两个存储节点之间通过内置的高速网络接口直接连接,上海川源的专利技术可实现节点间数据实时同步,形成 “双活(Active - Active)”系统。
存储背板故障、单一节点发生异常断电、控制器故障、单一节点的存储资源池发生2块以上的硬盘故障,甚至是单一个节点出现由于软件故障导致的数据错误,均不会造成存储系统的访问中断,业务系统可持续运行。
图1: 上海川源无共享对称式双活架构设计
搭载上海川源 “无共享对称式双活架构”的全闪存储系统,可靠度从99.999%(5个9)的级别提升至99.9999%(6个9),业务运行一整年的故障风险低于31秒。
而传统的存储系统双活架构,存储系统内部有两个控制器,如果控制器A出现故障,控制器B在短时间内接管应用。但两个控制器共享一个磁盘柜,通过背板连接到共享HDD磁盘柜,一旦磁盘柜背板发生故障,数据将无法访问,造成数据服务中断。
而一项针对数据中心硬件故障的研究显示:磁盘柜的背板故障,是数据中心前十大硬件故障来源之一。
这种传统的存储系统双活架构,最早源于2006年提出的SBB(Storage Bridge Bay, 存储桥接坞)架构,多用于以机械硬盘为主要存储介质的中低端磁盘存储系统。
图2: 传统存储系统双活架构
在这种架构下,机械硬盘之间通过RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)技术实现冗余保护。
那么,什么是RAID数据保护技术?应用于固态硬盘又会带来哪些伤害?下期的文章中,我们将为您逐一揭秘。