Cassandra 源码解析 5: MerkleTree

原理

第4篇中,我们谈到集群管理要做的一件事情是保证不同节点数据备份的一致性。这里头涉及到两个问题:

  • 选择哪些节点之间定时同步,比如有n个节点持有相同数据备份,如果每次每台机器两两同步,每次开销为n*(n-1),so big?
  • 两个节点之间如何同步,比如每个节点存储1m条data[key, value],其中仅10条数目不一样。我们扫描所有1m数据找出这10条数目?

第一个问题cassandra使用gossip协议来保证每个节点的member视图一致(特点是:同步间隔短,1s一次;较小的网络开销,每次只需随机与另外一个节点同步),第二问题则是本文要介绍的MerkleTree. 在BeansDB 中我们介绍了hashtree(merkletree)

A Merkle tree is a hash tree where leaves are hashes of the values of individual keys. Parent nodes higher in the tree are hashes of their respective children. The principal advantage of Merkle tree is that each branch of the tre can be checked independently without requiring nodes to download the entire tree or the entire data set.

叶子节点是存储数据的hash值,内部节点是子节点hash值的hash。如果所有叶子节点相同,其根节点必相同;如果有叶子节点不同,其根节点必不同,而且可以顺藤摸瓜,从上至下,快速定位不同的叶子节点。

wiki_hash_tree_binary

实现

MerkleTree的构建

和BeanDB中不一样的是,cassandra中的merkle tree的叶子节点是某个key range的所有data的hash值(BeansDB是单条数据的hash值)。如下图,假设key的取值范围是1-64,下面mt中有四个叶子节点,三个内部节点。其中第一个叶子节点是由key值在[1,16]的数据生成一个hash值。假如[1,16]有三条数据,则该叶子节点是三条数目生成一个hash。(每个叶子节点包含一个key range,每个内部节点包含一个中间值)

单条数据的hash值: SHA-256

 

叶子节点的hash值: 所有添加到此叶子节点的数据hash值的异或

 

Inner node的hash值: 两个子节点hash值的异或

 

merkle tree的生成

    • 首先生成一颗叶子节点<2^15的树。生成过程:随机挑选一个key,然后将包含这个key的叶子节点(key range)切分成两个节点。当叶子节点数目为2^15时或者深度为127时停止。比如,整个key range为[1, 64],已有key值为1, 8, 30。
      • 初始化时,根据点为Leaf,range为[1,64],
      • 切分包含1的叶子节点,即根节点生成两个Leaf [1, 32], [33, 64],
      • 切分包含8的叶子节点,[1,32]生成两个Leaf[1,16],[17,32]
      • 切分包含30的叶子节点,[17, 32]生成两个Leaf [17, 24] [25, 32],生成如上文图中所示的merkle tree

 

  • 将所有数据条目添加到叶子节点,生成所有叶子节点的hash值。上述一步,生成了树的形状;这一步仅仅将叶子节点的hash值填充。有个技巧:key的添加从小到大有序添加;中序(深度优先)遍历上一步生成的树,得到待添加的叶子节点。仍然借用前面的例子,比如key值为1, 2, 5, 6, 8,10, 15, 30,而已有的Leaf节点为[1,16], [17,24], [25,32],[33-64]
    • 添加1,2,5,6,8,10,15到第一个叶子节点
    • 添加30,第一个节点range不包含该30,next;第二个节点,仍不包含,next...,直至最后一个叶子节点(range),添加到最后一个叶子节点.

 

  • Inner节点hash值的生成. Inner节点的hash值是lazy calculate,在使用时递归生成,具体见下一步,两个MerkleTree的比较

两颗MerkleTree的遍历比较

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

FireCoder

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值