前言
本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系
正文
-
一个 HRegionServer 会负责管理很多个 region
-
一个 region 包含很多个 store
划分规则: 一个列族就划分成一个 store,如果一个表中只有 1 个列族,那么每一个 region 中只有一个 store
- 一个 store 里面只有一个 memstore
memstore 是一块内存区域,数据会先写入到 memstore 进行缓冲,然后再把数据刷到磁盘
- 一个 store 里面有很多个 StoreFile, 最后数据是以很多个 HFile 这种数据结构的文件保存在 HDFS 上
StoreFile是HFile的抽象对象,如果说到 StoreFile 就等于 HFile。
每次 memstore 刷写数据到磁盘,就生成对应的一个新的 HFile 文件出来