自动存储分层
自动存储分层(Automated Storage Tier,AST)管理系统的基本业务是能够将数据安全地迁移到较低的存储层中并削减存储成本。在其他的情况下,有必要将数据迁移到更高性能的存储层中。自动存储分层(AST)在于两个目标--降低成本和提高性能。
(1)存储虚拟化:将分散在不同存储层的磁盘区块,组合成虚拟的Volume或LUN.也就是将Volume或LUN的区块分散到不同存储层上。
(2)存取行为的追踪统计与分析:持续追踪与统计每个磁盘区块的存取频率,并透过定期分析,识别出存取频率高的“热”区块,与存取频率低的“冷”区块。
(3)数据迁移:以存取频率为基础,定期执行数据搬移,将热点区块数据搬移到高速存储层,较不活跃的冷区块数据则搬移到低速存储层。
由于存取行为追踪统计分析与数据迁移作业,都会消耗磁盘阵列控制器的能效,因此多数自动分层存储,都会提供预设操作功能,让使用者设定允许系统执行统计分析与数据迁移操作的时间区段,以便避开存取高峰时段,如可设定为只允许在晚上7点以后、或周五晚上到周日凌晨等下班时段,执行分析与迁移操作。
作为技术来说,自动分层存储可以在提升存储效率的同时,通过减少昂贵存储设备的使用降低总体成本。该技术可以帮助将那些相对不常访问的数据由昂贵的固态硬盘或者光纤磁盘设备无缝迁移到相对廉价的SATA盘或者近线SAS盘上。
自动分层软件在当今大多数存储阵列里是很常见的。比如说Dell在他们的Compellent产品中就有Data Progression,EMC公司的全自动分层存储(FAST),HP公司在他们3PAR阵列里应用的Adaptive Optimization,HDS公司的Dynamic Tiering以及IBM公司的Easy Tier等等。这些应用在其所支持的层级数量以及给客户能控制的程度有所不同,但从本质上来看,都是基于子LUN的分层技术。
比较自动分层存储技术时,需注意的功能与参数,包括支持的存储层级数目(除IBM只分2层外,其他大都分为3层)、针对各存储层I/O负载与效能的监控功能等,不过最重要的两个标准分别是“精细度”与“运算周期”。
“精细度”是指系统以多大的磁盘单位,来执行存取行为收集分析与数据迁移操作,这将决定最终所能达到的存储配置最优化效果,以及执行重新配置时所需迁移的数据量。
理论上越精细、越小越好,不过副作用是越精细,将会增加追踪统计操作给控制器带来的负担。假设1个100GB的LUN,若采用1GB的精细度,系统只需追踪与分析100个数据区块,若采用更精细的10MB精细度,那就得追踪分析1万个数据区块,操作量高出100倍,同时对应于数据区块的metadata数据量也随之大幅增加。
反之,若运算周期间隔太长,很可能磁盘存取状态已发生重大变化,但整个系统仍必须慢吞吞地等到下次统计分析与数据迁移时间到来,才能重新分派磁盘资源。不过若运算周期太密集,也会造成统计分析与数据迁移操作占用过多I/O资源的副作用。
以这两个指标来看,EMC的第一代FAST与HP 3PAR的Dynamic Optimization,由于以整个LUN或Volume为运算单位的密度太过粗略,算是已经过时的技术,因此都已被新一代的Sub-LUN型技术所取代。
Dell Compellent的Data Progression虽然推出时间已相当久,但512KB~4MB的精细度仍是当前最精细的(预设为2MB),领先其他厂商有相当距离,理论上有助于达到更好的磁盘配置最优化效果。不过只提供24小时的运算周期设定,给与用户的弹性较低,若用户磁盘存取状态变化很快,24小时的周期将会跟不上变化。
EMC新一代的FAST VP则有较弹性的设定,目前FAST VP分为两种,搭配VMAX存储设备的FAST VP采用最小达7.6MB的区块,精细度之精细仅次于Dell Compellent的Data Progression.在运算周期方面,FAST VP的统计分析排程与数据迁移排程界面可提供以日或周为基准的周期设定,也有允许系统随时执行数据分析与迁移的模式,此时的数据迁移周期可缩小到最短30分钟,能更快的反映磁盘存取行为的变化。
EMC另一种搭配VNX系列存储设备的FAST VP,则采用较大的1GB精细度,以及以日(24小时)或周为基准的运算周期设定,相较下便比较平庸。
HDS的Hitachi Dynamic Tiering(HDT)技术也相当平衡且拥有弹性,42MB的精细度虽然比不上EMC与Dell Compellent,但也算是相当精细。在运算周期方面,可选择最短30分钟,到1、4、8、24小时等不同周期设定,较能适应不同类型环境的需要。
IBM的Easy Tier亦分为两种,搭配DS8700磁盘阵列的Easy Tier精细度与周期固定为1GB的区块与24小时,在同类技术中并不突出;搭配Storwize V7000存储设备的East Tier,精细度则视与Volume容量对应的扩展数据区块(extent)而定,系统预设值为256MB,运算周期则为24小时,规格与弹性较DS8700的Easy Tier略佳,但与其他厂商相比仍有差距。
HP 3PAR的Adaptive Optimization则缺乏可供对比的细节数据,仅宣称属于Sub-Volume层级,但实际运算的精细度与可选的排程周期均未公开。
美国加州马自达公司的基础架构师Blakeley表示,他们公司使用了Compellent公司的Data Progression产品来管理不同层级之间的数据。他们公司的第一层级数据存放于总容量达1.06TB的固态硬盘存储上,第二层级数据存放于27TB由15,000转FC盘组成测磁盘上,第三层级数据则存放于72TB由7,200转SAS盘组成的存储上。
Blakeley说在使用Data Progression之前,马自达公司都是手动将数据由主存储迁移至辅存储上。在做出使用自动层级产品决定的时候,他们花了不少时间和精力。
如果Data Progression产品帮助将使用较少的数据自动存放至更具有成本效益的层级上,通常是SAS盘组成的存储。Blakeley说现在只需要四个人就可以管理全部的存储工作,大大提升了自动化比率。
Blakeley同时表示,“在Compellent产品的帮助下,一切变得更加自动,并且我们也不再遇到性能方面的问题。此外我们也不需要等待上级的批复究竟哪些数据需要手动迁移,我们甚至可以忘了有这么回事情。”