HBase引入与理解


title: HBase引入与理解
date: 2019-09-05 14:00:00
categories:

  • 技术
    tags:
  • HBase

Hive适用于离线分析,速度较慢,无法支持在线业务。所以引入HBase,记录本文。

HBase特点

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。

HBase特点

  • 面向列
  • 适合非结构化数据的存储,PB级别。
  • 分布式:易于扩展、动态伸缩、并发处理。用zookeeper管理。

应用场景

  • 瞬间写入量很大
  • 大量数据需要长期保存, 且数量会持续增长
  • HBase不适合有join, 多级索引, 表关系复杂的数据模型

HBase VS 关系型数据库

HBase关系型数据库
数据库大小 PB级别 GB TB
数据类型 Bytes 丰富的数据类型
事务支持 ACID只支持单个Row级别 全面的ACID支持, 对Row和表
索引 只支持Row-key 支持
吞吐量 百万写入/秒 数千写入/秒

行数据库&列数据库存储方式比较

Hbase表结构

  • NameSpace: 关系型数据库的"数据库"(database)
  • 表(table):用于存储管理数据,具有稀疏的、面向列的特点。对于为值为空的列,并不占用存储空间。
  • 行(Row):在表里面,每一行代表着一个数据对象,每一行都是以一个行键(Row Key)来进行唯一标识的, 行键并没有什么特定的数据类型, 以二进制的字节来存储.
  • 列(Column): HBase的列由 Column family 和 Column qualifier 组成, 由冒号: 进行行间隔, 如 family: qualifier
  • 行键(RowKey):类似于MySQL中的主键,HBase根据行键来快速检索数据,一个行键对应一条记录。与MySQL主键不同的是,HBase的行键是天然固有的,每一行数据都存在行键。
  • 列族(ColumnFamily):是列的集合。列族在表定义时需要指定,而列在插入数据时动态指定。列中的数据都是以二进制形式存在,没有数据类型。在物理存储结构上,每个表中的每个列族单独以一个文件存储。一个表可以有多个列簇。
  • 列修饰符(Column Qualifier) : 列族中的数据通过列标识来进行映射, 可以理解为一个键值对(key-value), 列修饰符(Column Qualifier) 就是key 对应关系型数据库的列
  • 时间戳(TimeStamp):是列的一个属性,是一个64位整数。由行键和列确定的单元格,可以存储多个数据,每个数据含有时间戳属性,数据具有版本特性。可根据版本(VERSIONS)或时间戳来指定查询历史版本数据,如果都不指定,则默认返回最新版本的数据。
  • 区域(Region):HBase自动把表水平划分成的多个区域,划分的区域随着数据的增大而增多。

HBase基础结构

  1. Client
  2. ZooKeeper:保证有一个HMaster存活,元数据存储。
  3. HMaster:对HRegionSever的负载均衡。
  4. HRegionServer
  5. HStore:每个列族对应一个HStore,存储数据,内存(MemStore)+文件硬盘(StoreFile)
  6. HRegion:水平拆分的单元,10G一个。
  7. HLog:先写HLog,后写MemStore
HStore
  • HBase存储的核心,由MemStore和StoreFile组成。

  • 用户写入数据的流程为:client访问ZK, ZK返回RegionServer地址-> client访问RegionServer写入数据 -> 数据存入MemStore,一直到MemStore满 -> Flush成StoreFile
HBase模块协作
  • HBase启动
    • HMaster启动, 注册到Zookeeper, 等待RegionServer汇报【HMaster注册】
    • RegionServer注册到Zookeeper, 并向HMaster汇报【RegionServer注册】
    • 对各个RegionServer(包括失效的)的数据进行整理, 分配Region和meta信息
  • RegionServer失效
    • HMaster将失效RegionServer上的Region分配到其他节点
    • HMaster更新hbase: meta 表以保证数据正常访问
  • HMaster失效
    • 处于Backup状态的其他HMaster节点推选出一个转为Active状态
    • 数据能正常读写, 但是不能创建删除表, 也不能更改表结构

HBase安装

安装包下载

一开始用的是国外链接,下载得太慢。

wget http://archive.apache.org/dist/hbase/stable/hbase-1.4.10-bin.tar.gz

该用清华大学的镜像,快了好多,感谢!

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/stable/hbase-1.4.10-bin.tar.gz
安装过程记录

配置伪分布式环境

  • 环境变量配置

    export HBASE_HOME=/usr/local/development/hbase-1.2.4
    export PATH=$HBASE_HOME/bin:$PATH
    
  • 配置hbase-env.sh

    export JAVA_HOME=/usr/local/development/jdk1.7.0_15
    export HBASE_MANAGES_ZK=false  --如果你是使用hbase自带的zk就是true,如果使用自己的zk就是false
    
  • 配置hbase-site.xml

    <property>
          <name>hbase.rootdir</name>  --hbase持久保存的目录
          <value>hdfs://hadoop001:8020/opt/hbase</value>   
    </property>
    <property>
          <name>hbase.cluster.distributed</name>  --是否是分布式
          <value>true</value>
    </property>
    <property>     
              <name>hbase.zookeeper.property.clientPort</name>    --指定要连接zk的端口
              <value>2181</value>    
    </property>    
    <property>        
              <name>hbase.zookeeper.property.dataDir</name>            <value>/home/hadoop/app/hbase/zkData</value>    
    </property>          
    
  • 启动hbase(启动的hbase的时候要保证hadoop集群已经启动)

    /hbase/bin/start-hbase.sh
    
  • 输入hbase shell(进入shell命令行)

    hbase shell
    

参考&致谢

https://baike.baidu.com/item/HBase/7670213?fr=aladdin

https://blog.csdn.net/flyfish111222/article/details/51893096

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值