需要冷热数据分级存储吗?
在海量数据分析场景下,比如每日40TB增量的情况下,如果将所有的数据都放到SSD,或者机械磁盘,如果将数据仅存储1年,那么每年的数据存储规模将达到31.3PB(最小存储规模=40TB日增量大小 x 365 x 2.2冗余)。而日增40TB数据,在电商,视频,网络,工业互联网,社交应用行业的中大企业可谓常见,从商业管理角度来看,如果采用同样的存储方式,将会花费巨大的存储费用,从技术角度来看,将一些不常用的数据放到昂贵的存储上进行存储显然是不合理的。
因此通常会使用分级存储策略,将经常使用,我们称为热数据,对性能要求较高的数据存储在性能较高的存储设备商,如SSD,FLUSH上;将偶尔使用,我们称为暖数据,对性能要求不太高的数据存储在普通存储硬件上,通过阵列冗余的方式提升性能,降低存储成本,如Sas,sata盘上;对于不经常使用,我们称为冷数据,对性能要求不太高的数据,存储到廉价的存储上,比如磁带,低廉Das设备,通过软件进行冗余,防止数据丢失;
在clickhouse构建的数据体系中,通常未能完全区分暖数据和热数据的区别,通常存储在相同的介质中。