hbase 表结构 环境搭建 hbase的操作 过滤器 hbase与hive的整合 hbase的rowkey设计原则

本文介绍了HBase的基本概念,如其作为NoSQL数据库的特点,以及与Hive的区别。详细讲解了HBase的表结构,包括表、列族、列、行键和单元格。还阐述了HBase的环境搭建步骤,以及HBase操作,如增删改查。此外,文章讨论了HBase与Hive的整合过程,并提出了HBase行键设计的重要原则。
摘要由CSDN通过智能技术生成

hbase

hbase 是一款开源的,分布式的,版本化的,非关系型(NoSql)数据库
NoSql = not only sql

hive是数据仓库,但是使用的是类sql语句
hbase是数据库,但是不用sql语句

特点:
1.存储量大
2.数据稀疏
3.速度快:数据量比较大的情况下,不是特别慢。
4.数据无类型(单一类型)

应用场景:
1.适合做海量数据的存和取
2.如果数据量不超过千万级别,不建议使用hbase。
3.hbase不适合做细腻的数据分析 where

hbase的表结构

  • 表(table):
    hbase以表为单位组织数据
  • 列族(columnFamily):
    由不定多个具有相同意义的列组成一个列族,一个表中可以有多个列族
  • 列(column):
    列族下的具体的某一列,一个表当中可以存在数百万列。
  • 行键(rowKey):
    行是由一个Rowkey和多个列族组成,
    一行只能有一个行键,用来做当前行的唯一标识,表中可以有数十亿行
  • 单元格(cell):
    由rowkey,column和columnFamily唯一确定一个单元格
  • 时间戳(timestamp):
    同一个单元格下可以保存历史版本,通过时间戳进行保存。

hbase的整体架构

  • client:
    客户端,提交请求,发送数据
  • HMaster:
    负责管理,HRegionServer,HRegion。。。
  • HRegionServer:
    维护HRegion,负责切分过大的HRegion,真正执行数据的增删改查
  • HRegion:
    每个HRegion内会存储一到多行数据,
    最原始状态,只有一个HRegion
    随着数据量不断增大,HRegion的数量也会逐渐变多
    HRegion的数量大到一定程度的时候,就会把数据放到其他的HRegionServer中
  • Store:
    每个store存的是一个列族
  • MemStore:
    内存缓冲区,先把数据写入到这里
    达到一定的阈值后,会启动flashcache进程将数据写入storeFile中
    每次写入生成一个StoreFile
  • StoreFile:
    当StoreFile数量达到一定阈值后,系统会进行合并,并删除一些旧版本的数据
    当整个容量达到一定阈值后,会
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值