HBase是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,为业务中的海量数据存储和快速查询提供可靠服务。
HBase完全分布式安装构建测试环境
下载并解压
hbase-2.2.4-bin.tar.gz
设置环境变量
export HBASE_HOME=/opt/packages/hbase
export PATH=$PATH:$HBASE_HOME/bin
配置 hbase-env.sh
修改配置文件同时需要将这些配置文件分发到集群中的各个 Regionserver 节点。
hbase-env.sh:配置 HBase 运行时的变量,如 Java路径、RegionServer 相关参数等。
export JAVA_HOME=/opt/packages/jdk/jdk1.8.0_191
export HBASE_MANAGES_ZKrue
配置hbase-site.xml
在这个文件中可以添加 HBase 的相关配置。
<configuration>
<property>
<name>hbase.unsafe.stream.capability.enforce</name>
<value>false</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>Master.Hadoop,Slave1.Hadoop,Slave2.Hadoop</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/var/zookeeper</value>
</property>
<property>
<name>hbase.rootdir</name>
<value>hdfs://Master.Hadoop:9000/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
</configuration>
修改regionservers
Master.Hadoop
Slave1.Hadoop
Slave2.Hadoop
启动
[root@master bin]# ./start-hbase.sh
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/packages/hadoop/hadoop-3.1.4/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/packages/hbase/lib/client-facing-thirdparty/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/packages/hadoop/hadoop-3.1.4/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/packages/hbase/lib/client-facing-thirdparty/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
Master.Hadoop: running zookeeper, logging to /opt/packages/hbase/bin/../logs/hbase-root-zookeeper-master.hadoop.out
Slave1.Hadoop: running zookeeper, logging to /opt/packages/hbase/bin/../logs/hbase-root-zookeeper-slave1.hadoop.out
Slave2.Hadoop: running zookeeper, logging to /opt/packages/hbase/bin/../logs/hbase-root-zookeeper-slave2.hadoop.out
running master, logging to /opt/packages/hbase/logs/hbase-root-master-master.hadoop.out
Slave1.Hadoop: running regionserver, logging to /opt/packages/hbase/bin/../logs/hbase-root-regionserver-slave1.hadoop.out
Slave2.Hadoop: running regionserver, logging to /opt/packages/hbase/bin/../logs/hbase-root-regionserver-slave2.hadoop.out
Master.Hadoop: running regionserver, logging to /opt/packages/hbase/bin/../logs/hbase-root-regionserver-master.hadoop.out
Slave2.Hadoop: running master, logging to /opt/packages/hbase/bin/../logs/hbase-root-master-slave2.hadoop.out
查看集群状况
hbase(main):001:0> status
1 active master, 1 backup masters, 3 servers, 0 dead, 1.0000 average load
集群正常
打开浏览器查看集群状况
Backup Masters和Regin Servers都正常
Hbase架构组成
通过上图我们可以得出Hbase中的每张表都按照一定的范围被分割成多个子表(HRegion),默认一个HRegion超过 256M 就要被分割成两个,由 HRegionServer管理,管理哪些HRegion由HMaster分配。
现在我们来介绍一下HBase中的一些组成部件以及它们起到的作用:
Client:包含访问HBase的接口,并维护cache来加快对HBase的访问。
Zookeeper:HBase依赖Zookeeper,默认情况下HBase管理Zookeeper实例(启动或关闭Zookeeper),Master与RegionServers启动时会向Zookeeper注册。Zookeeper的作用如下:
保证任何时候,集群中只有一个master
存储所有Region的寻址入口
实时监控Region server的上线和下线信息。并实时通知给master
存储HBase的schema和table元数据
HRegionServer:用来维护master分配给他的region,处理对这些region的io请求;负责切分正在运行过程中变的过大的region。
HRegion:HBase表在行的方向上分隔为多个Region。Region是HBase中分布式存储和负载均衡的最小单元,即不同的region可以分别在不同的Region Server上,但同一个Region是不会拆分到多个server上。Region按大小分隔,每个表一般是只有一个region,当region的某个列族达到一个阈值(默认256M)时就会分成两个新的region。
Store:每一个Region由一个或多个Store组成,至少是一个Store,HBase会把一起访问的数据放在一个Store里面,即为每个ColumnFamily建一个Store,如果有几个ColumnFamily,也就有几个Store。一个Store由一个memStore和0或者多个StoreFile组成。Store的大小被HBase用来判断是否需要切分Region。
StoreFile:memStore内存中的数据写到文件后就是StoreFile,StoreFile底层是以HFile的格式保存。
HLog:HLog记录数据的所有变更,可以用来恢复文件,一旦region server 宕机,就可以从log中进行恢复。
LogFlusher:一个LogFlusher的类是用来调用HLog.optionalSync()的。