一 概述
BigTable是以大神Jeffrey Dean为首的Google团队在2006年公开的分布式存储系统,是Google“三驾马车”论文中(GFS、MapReduce、BigTable)中最后公开的。在BigTable论文中,Google构思、设计并实现了一套支持结构化数据存储的超大容量分布式存储系统。BigTable中关于数据模型、底层存储技术和架构模型的设计思路直到今日仍被奉为经典,下面我们就按照这三个维度来看下BigTable的设计细节。
二 数据模型
BigTable本质上是一个为稀疏结构化数据设计的分布式多维排序Map。这里的“稀疏”指的是对于某一个结构化对象,有大量属性是缺失的,且多个对象之间缺失的属性分布也很分散。Map的Key由三个部分组成,分别是Row、Column Family:Column、Timestamp。
- Row(行)
行是结构化对象的一个实例。在BigTable中行是根据Key用字典序排序存储的。BigTable支持单行级别的原子更新操作,客户端无须在并行调用场景关心行操作的原子性。 - Column Family(列簇):Column(列)
列无须过多解释,此处重点介绍列簇。列簇是多个列的集合。一般情况下,存储在同一个列簇中的数据具有同样的类型,并且会压缩在一起。列簇还是访问权限控制的最小单元。 - Timestamp(时间/版本)
Timestamp是一个64-bit的时间版本号。BigTable可以存储同一份数据的多个版本,并支持按照版本进行访问。Timestamp可以由客户端自行指定,或由BigTable实时生成。
- Tablet
Tablet是一个表区间,是按Key字典序连续存储的一个片段。Tablet的每行中包含了行的所有数据(即所有列簇/列和版本)。同时,