最初,在存储系统领域,数据分层是一种降低数据存储成本的策略。其具体做法是将不常访问的数据整合到更为经济(但性能可能稍弱)的存储阵列中。例如,闲置一年或更久的数据可以从昂贵的闪存层转移至相对经济的 SATA 磁盘层。尽管固态硬盘(SSD)和闪存成本较高,但仍可归类为高性能存储类别。一般来说,那些被频繁使用且对性能要求极高的小数据集通常存储在闪存中。
随着客户不断寻求将数据分层或归档至公共云的替代方案,云数据分层逐渐受到欢迎。目前,公共云提供了对象存储和文件存储的混合选项。像 Amazon S3 和 Azure Blob(Azure Storage)这样的对象存储类别,既具备显著的成本效益,又拥有对象存储的诸多优点,同时还无需复杂的设置和管理。
从多节点 Kafka 集群的角度来看,“热” 数据和 “冷” 数据有着不同的定义。那些被摄入 Kafka 主题,并在经过各种数据管道后到达下游应用程序以供快速检索的数据,可称之为 “热” 数据。比如炼油厂各类关键设备的物联网传感器事件就属于热数据。而那些同样被摄入 Kafka 主题,但下游应用程序较少访问的数据则可称为 “冷” 数据。例如电子商务应用程序中通过从第三方仓库系统摄入产品数量等方式实现的库存更新数据就属于冷数据。冷数据可以从集群中移出,转移至成本效益更高的存储解决方案中。
根据下游应用程序的需求对摄入 Kafka 主题的数据进行分类后,我们可以在 Kafka 集群中将数据层指定为热数据的热层和冷数据的冷层。对于热