分布式概念-日志术

点击上方蓝色字体,选择“设为星标”

优质文章,及时送达


在所有分布式系统实现中,很多技术点是基于日志实现的,可以认为日志是分布式系统中除了网络通信之外另一个实现基础。我做的第一个类似于hadoops的分布式任务调度处理系统就是基于raft+日志实现的,所以我们这次聊聊日志之于分布式系统的意义。

日志的主要作用在于宕机恢复之后的处理,同时节点上保存执行状态日志可以提高系统的容错性,我们知道在如MySql的数据库中会大量使用日志术,如redolog,undolog。

在设计分布式存储系统时,为了提高性能,我们可以将数据放到内存中实现高速查询,redis方式就是这种实现方式,读写以key-value方式查询和更改。试想如果设计一个kv存储引擎,我们应该如何处理数据库事务呢?

redolog实现:

  1. 将更新操作结果,如kv操作(set a=1,日志上顺序记录a=1)日志追加方式写入磁盘上日志文件。

  2. 同时修改内存中数据。

  3. 返回客户端成功响应。

所以redolog日志追加的日志,是kv操作更新之后的结果,且顺序追加到日志文件中,磁盘对于顺序写有较高效率。

宕机恢复流程处理如下:

从头读取日志文件中每次的更改操作结果,利用结果修改内存中数据。所以只有日志追加到文件上之后,才可以利用到崩溃恢复过程中,所以在redo实现过程中,要先追加文件,而不是先改内存中数据。

前文提到的宕机恢复是借助于redolog进行操作回放,如果日志文件较大,或追加的日志较长,可以根据一定文件大小或是长度进行阶段性的快照,在宕机恢复时采用快照恢复,提高恢复效率,这个处理方式我们叫做check point。

check point是将内存中数据组织并完整的dump到磁盘中,便于快速加载并恢复,解决因宕机恢复造成恢复时间较长的问题。

宕机恢复流程处理如下:

  1. 向日志文件记录“begin check point”

  2. 将内存数据重新组织dump到磁盘上

  3. 向日志文件中记录“end check point”

崩溃恢复:

  1.  将dump到磁盘的数据加载到内存

  2. 从后面扫描日志文件,找到最后一个“end check point”

  3. 再向前寻找最近的“begin check point”,并回放该日志之后的所有更新操作日志

如果日志被切割维护在多个磁盘中,需要分批次更新操作,这些操作需要原子性生效。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值