由于其在大规模存储系统中的普遍性,如何提高单故障恢复的性能一直是一个活跃的研究主题。我们认为,当擦除编码部署在群集文件系统(CFS)中时,现有的单个故障恢复设计在不同方面受到限制:忽略CFS体系结构中的带宽多样性属性,针对特定的擦除代码构造,并且不对负载进行任何特殊处理恢复期间保持平衡。
在本文中,我们提出了CAR,一种跨机架感知的恢复算法,旨在提高采用Reed-Solomon码实现一般容错能力的CFS的单次故障恢复的性能。对于每个stripe,CAR都会找到一种恢复解决方案,该解决方案可以从最少数量的机架中检索数据。通过在跨机架传输之前执行机架内数据聚合,它还减少了跨机架维修流量。此外,通过考虑多级恢复,CAR可以平衡多个机架之间的跨机架维修流量。评估结果表明,CAR可以有效减少跨机架维修流量,并缩短恢复时间。
维修流量和修复时间的测试