最近在学习 git 原理时,涉及到了默克尔树,这里总结下该数据结构。
默克尔树于 1979 年由美国计算机科学家拉尔夫·默克尔(Ralph Merkle)提出,本质上是一种树状数据结构,由数据块、叶子节点、中间节点和根节点组成。所以,一组合,就叫“Merkle Tree”。
默克尔树各部分的构成关系如下图:
要得到这样一棵默克尔树,首先要对底部数据块进行哈希运算,用每个数据块对应的哈希值生成叶子节点。再对相邻的 2 个叶子节点进行哈希运算,得到的哈希值生成中间节点,最后对相邻的 2 个中间节点进行哈希运算,得到的哈希值生成根节点。由于各类节点都是由哈希值构成,因此默克尔树又被称为哈希树,即储存哈希值的树状数据结构。
所以默克尔树有以下特点:
- 哈希值构成的树状数据结构。
- 用于验证验证区块链等去中心化系统中的数据的完整准确性。
- 具有灵活高效验证数据的优势。
在 git 中,设计到的对象(object)包括:blob、tree、commit、tag,其中前三个都有一个唯一的 ID,该 ID 就是有 SHA1 生成的。其实这里面就应用到了默克尔树,对应到上图来说,改变的文本文件就是“数据”,叶子节点(blob)的 ID 就是改变的文本的 SHA1 值,中间节点(tree)的 ID 就是多个 blob ID 的 SHA1 值,commit 对应的 ID 就是多个 tree 的 ID 的 SHA1 值。
经过上述过程层层 SHA1,保证了数据的完整性。
(SAW:Game Over!)