hbase timestamp获取key_Hbase数据模型及架构

Hbase概念:

简单来说,Hbase是Hadoop Database,是一个具备 高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据。

它基于Hadoop HDFS做分布式存储,利用MapReduce进行数据分析,利用Zookeeper进行分布式协作服务。

Hbase数据模型:

ec90471ec508d473ddbee46cb93f9e1a.png

Row Key:

1.行的唯一标识,类似于主键

2.按照字典序进行排列存储

3.最大长度是64KB,但是建议长度是10-100byte。

Column Family(列族):

1.表示一组列的集合(CF1,CF2,CF3)

2.在hbase中想要使用列,必须要指定列族

3.列必须要归属于某一个列族,一个列族可以有多个列成员,新的列族成员可以随后按需动态加入。

4.列族需要在表定义的时候预先给出,而列不需要。

5.列族是存储,权限控制,调优的最小单元。

6.HBase把同一列族里面的数据存储到同一个目录下,由几个文件保存。

Time Stamp:

1.在hbase中每个cell存储单元对同一份数据有多个版本,根据唯一的时间戳来区分每个版本之间的差异,不同版本的数据按照时间倒叙排列,最新的数据版本排在最前面。

2.timestamp默认使用的是系统时间,是毫秒值,一般不去改变。

Qulifier:

1.列名,使用时必须加前缀列族

cell:

1.由行和列唯一确定的一个单元格(rowkey + column family+qulifier+timestamp)。

2.cell中的数据是没有类型的,全部都是字节数组。

HLog(WAL log):

1.HLog文件就是一个普通的Hadoop Sequence File,Sequence File 的Key是HLogKey对象,HLogKey中记录了写入数据的归属信息,除了table和region名字外,同时还包括 sequence number和timestamp,timestamp是” 写入时间”,sequence number的起始值为0,或者是最近一次存入文件系统中sequence number

2.HLog SequeceFile的Value是HBase的KeyValue对象,即对应HFile中的KeyValue。

Hbase架构图:

1cd7ad28fb22755bc3e6cdb8f670e687.png

HBase的四大角色:

Client:

1.包含访问HBase的接口并维护cache来加快对HBase的访问。

Zookeeper:

1.保证任何时候,集群中只有一个活跃的master

2.存储所有的Region的寻址入口

3.实时监控Region Server的上线和下线信息,并实时通知Master

4.存储HBase的schema和table元数据

HMaster:

1.为HRegionServer分配region

2.负责RegionServer的负载均衡

3.发现失效的RegionServer并重新分配其上的region

4.管理用户对table的增删改操作

RegionServer:

1.RegionServer维护region,处理对这些region的IO请求

2.RegionServer负责切分在运行过程中变得过大的region

HBase的组件:

Region(表):

1.Hbase自动把表水平划分成多个区域(region),每个region会保存一个表里面某段连续的数据。

2.每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阈值的时候,region就会等分为两个新的region(裂变)

3.当table中的行不断增多,就会有越来越多的region。这样一张完整的表被保存在多个Regionserver上。

store(列族):

1.一个region由多个store组成,一个store对应一个CF(列族)

Memstore(写缓存)与storefile(持久化的存储文件):

1.store包括位于内存的memstore和位于磁盘的storefile,写操作先写入memstore,当memstore中的数据达到某个阈值,HRegionServer会启动flashcache进程,写入storefile,每次写入形成单独的一个storefile。

2.当storefile文件的数量增长到一定阈值后,系统会进行合并(minor,major compaction),在合并过程中会进行版本合并和删除工作(major),形成更大的storefile

3.当一个region所有的storefile的大小和数量超过一定的阈值后,会把当前的region分割为两个,并由hmaster分配到相应的regionserver服务器,实现负载均衡

blockcache(读缓存):

1.客户端检索数据,先在memestore中找,找不到去blockcache,找不到再找storefile

2.存储在storefile中的数据会在读取完毕后存储在blockcache中,blockcache中会对读取频次进行排序,当blockcache中的数据满了后,会采取LRU的淘汰策略。

HRegion是HBase中分布式存储和负载均衡的最小单元,最小单元就表示不同的HRegion可以分布在不同的HRegion server上。

HRegion由一个或者多个Store组成,每个store保存一个column family。

每个Store又由一个memStore和0至多个StoreFile组成。如图:StoreFile以File格式保存在HDFS上。

298366b2506860b3786d4c9c13b412f4.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值