点击上方蓝色字体,选择“设为星标”
优质文章,及时送达
在所有分布式系统实现中,很多技术点是基于日志实现的,可以认为日志是分布式系统中除了网络通信之外另一个实现基础。我做的第一个类似于hadoops的分布式任务调度处理系统就是基于raft+日志实现的,所以我们这次聊聊日志之于分布式系统的意义。
日志的主要作用在于宕机恢复之后的处理,同时节点上保存执行状态日志可以提高系统的容错性,我们知道在如MySql的数据库中会大量使用日志术,如redolog,undolog。
在设计分布式存储系统时,为了提高性能,我们可以将数据放到内存中实现高速查询,redis方式就是这种实现方式,读写以key-value方式查询和更改。试想如果设计一个kv存储引擎,我们应该如何处理数据库事务呢?
redolog实现:
将更新操作结果,如kv操作(set a=1,日志上顺序记录a=1)日志追加方式写入磁盘上日志文件。
同时修改内存中数据。
返回客户端成功响应。
所以redolog日志追加的日志,是kv操作更新之后的结果,且顺序追加到日志文件中,磁盘对于顺序写有较高效率。
宕机恢复流程处理如下:
从头读取日志文件中每次的更改操作结果,利用结果修改内存中数据。所以只有日志追加到文件上之后,才可以利用到崩溃恢复过程中,所以在redo实现过程中,要先追加文件,而不是先改内存中数据。
前文提到的宕机恢复是借助于redolog进行操作回放,如果日志文件较大,或追加的日志较长,可以根据一定文件大小或是长度进行阶段性的快照,在宕机恢复时采用快照恢复,提高恢复效率,这个处理方式我们叫做check point。
check point是将内存中数据组织并完整的dump到磁盘中,便于快速加载并恢复,解决因宕机恢复造成恢复时间较长的问题。
宕机恢复流程处理如下:
向日志文件记录“begin check point”
将内存数据重新组织dump到磁盘上
向日志文件中记录“end check point”
崩溃恢复:
将dump到磁盘的数据加载到内存
从后面扫描日志文件,找到最后一个“end check point”
再向前寻找最近的“begin check point”,并回放该日志之后的所有更新操作日志
如果日志被切割维护在多个磁盘中,需要分批次更新操作,这些操作需要原子性生效。