官网原文标题《Concepts and Architecture--Tiered Storage》
翻译时间:2018-11-02
官网原文地址:http://pulsar.apache.org/docs/en/concepts-tiered-storage/
译者:本文介绍了Pulsar中分层存储的概念。Pulsar通过分层存储,节省存储空间。
------------------------------------------------------------------
分层存储
Pulsar面向segment的架构允许topic backlog增长的十分庞大,如果有没加以限制,随着时间的增加,代价将越来越高。
有一个减轻这个消耗的办法,就是使用分层存储。使用分层存储,backlog中旧的消息,将被从booKeeper转移到更低廉的存储机制中,当然还是允许客户端进入backlog,就像什么也没有发生一样。
写入bookKeeper的数据被默认复制到3台物理机。但是,一旦segment在bookKeeper中被封闭,将会变成不可改变,并且可以被拷贝到长期存储中。长期存储可以达到节省存储的目的,通过使用如 Reed-Solomon error correction 的机制,只需更少的物理数据备份
Pulsar目前支持S3作为长期存储。 可以通过Rest API或者命令行接口,卸载数据到S3。 用户传入他们想要保留在bookKeeper的topic数据的数量,broker将会拷贝backlog到S3. 原始数据将在配置的延迟时长后,从bookKeeper中删除(默认4小时)。
搭建分层存储的指导,请参考 Tiered storage cookbook。