全闪双活架构如何实现零数据丢失?
我们谈到,当采用RAID技术对固态硬盘(SSD)进行数据保护,不仅会折损固态硬盘的性能,可靠度也大打折扣。当存储系统超过两块固态硬盘故障时,数据恢复也面临挑战。
全闪存储系统架构除了传统的双活架构,我们还可以有别的选择吗?数据保护技术如果不采用SSD RAID,我们如何确保当发生硬盘故障时,固态硬盘内的数据安全?
上海川源的答案
上海川源国产自研“无共享对称式双活(active-active)架构”,基于闪存的物理特性,从架构层面、存储节点层面、盘级层面构建自上而下三维数据保护策略,将存储系统的可靠度从99.999%(5个9)的级别提升到99.9999(6个9)。
架构层面,“真双活”架构,无惧硬件单点故障
当客户采购基于无共享对称式双活架构的上海川源全闪存阵列时,上海川源会在交付过程中协助用户进行两个存储节点之间的双活配置。
图1: 上海川源无共享对称式双活架构示意图
两个存储节点之间通过内置的高速网络接口直接连接,上海川源的专利技术可实现节点间数据实时同步。如果单一节点发生异常断电、存储背板故障,导致设备无法启动;或是单节点的网络链路连接断开,导致客户端的访问异常;抑或是其中一个节点上的存储资源池发生2块以上的硬盘故障,造成存储资源池崩溃,均不会造成存储系统的访问中断,业务系统可持续运行。此外,由于两个节点间采用Active-Active即时传送、随机同步的独立运作模式,即使一个节点出现由于软件故障导致的数据错误,另一个节点也可以正常运行,保证业务不中断。
存储节点层面,双活数据保护组,无忧硬盘故障
在存储节点层面,上海川源在每个节点上都预先配置好2个数据保护群组,每个数据保护群组内都能允许1块SSD发生故障,在发生故障时可以快速通过热备硬盘进行数据恢复,还原故障硬盘上丢失的数据,达到传统RAID50的同等程度数据保护级别。此外,如果一个数据保护组内,有两块以上SSD同时发生故障,那么该数据保护组内的存储节点将下线,另一个存储节点自动接管,存储服务不中断。
值得一提的是,传统的存储双活架构,在存储系统发生硬盘故障时,并不会采取任何动作避免故障进一步扩大。以同样采用RAID 50技术的传统存储架构为例,1个组里容忍1块固态硬盘失效,当第2块固态硬盘失效时,整个RAID组的数据就会不完整,甚至可能全部丢失。当组内一块固态硬盘发生故障时,如果不采取任何措施,客户端需要更新该组内的数据时,依然将新的数据写入到有故障固态硬盘的RAID阵列组中,极有可能造成第2块甚至是第3块固态硬盘故障,导致用户的数据丢失。
图2: 上海川源FlexiRemap VS 传统RAID技术(一块固态硬盘故障)
基于此,上海川源无共享对称式双活架构通过引入故障组主动判别处理机制,进一步提升数据保护组的容错容灾能力。当任意一个保护组中发生SSD故障时,上海川源的存储操作系统会自动将用户新写入的数据写至健康的保护组,同时将发生故障的保护组锁定成只读模式,保障该组不会因为新的数据的持续写入,而造成更多的硬盘故障,从而避免更严重的数据丢失。进入只读模式后,故障保护组可以专注在数据恢复上,以缩短数据恢复的耗时。在完成恢复后,系统会自动解除只读锁定,恢复成正常的写入模式,并且自动平衡两个保护组间SSD的写入次数的差异,实现组间磨损均衡,进一步保障客户的数据安全。
固态硬盘层面,写入均衡专利技术,无畏固态硬盘热点盘
在硬盘层面,采用传统存储双活架构的全闪存储中,固态硬盘之间会发生写入不平均的问题,部分固态硬盘会被频繁写入,成为热点盘。热点盘因为要处理更多的数据,在成为存储系统性能瓶颈的同时,热点盘的寿命损耗及故障率都会高于其他固态硬盘,造成系统需要频繁更换固态硬盘的问题。
上海川源无共享对称式双活架构,在处理数据时会通过写入管理专利技术,无需缓存,将数据平均写入到存储系统的每块固态硬盘上,避免热点盘的产生,延长SSD使用年限。