HBase 官方文档

这篇文档是Apache HBase的官方指南,详细介绍了HBase的入门、配置、性能调优等内容。HBase是一个分布式、版本化的列数据库,构建在Apache Hadoop和Apache ZooKeeper之上。文档涵盖了快速启动HBase的单机和分布式模式,包括所需的软件、配置步骤,以及故障排查和调试技巧。此外,还讨论了HBase的数据模型、架构、性能优化和压缩等主题。
摘要由CSDN通过智能技术生成

Table中Family和Qualifier的关系与区别

就像用MySQL一样,我们要做的是表设计,MySQL中的表,行,列的在HBase已经有所区别了,在HBase中主要是Table和Family和Qualifier,这三个概念。Table可以直接理解为表,而Family和Qualifier其实都可以理解为列,一个Family下面可以有多个Qualifier,所以可以简单的理解为,HBase中的列是二级列,也就是说Family是第一级列,Qualifier是第二级列。两个是父子关系。

Abstract

这是 Apache HBase的官方文档, Hbase是一个分布式,版本化(versioned),构建在 Apache Hadoop和 Apache ZooKeeper上的列数据库.

我(译者)熟悉Hbase的源代码,从事Hbase的开发运维工作,如果有什么地方不清楚,欢迎一起讨论。邮箱yankaycom@gmail.com


Table of Contents

1. 入门
1.1. 介绍 1.2. 快速开始
1.2.1. 下载解压最新版本 1.2.2. 启动 HBase 1.2.3. Shell 练习 1.2.4. 停止 HBase 1.2.5. 下一步该做什么
1.3. 慢速开始(相对快速开始)
1.3.1. 需要的软件 1.3.2. HBase运行模式:单机和分布式 1.3.3. 配置例子
2. 升级
2.1. 从HBase 0.20.x or 0.89.x 升级到 HBase 0.90.x
3. 配置
3.1. hbase-site.xml 和 hbase-default.xml
3.1.1. HBase 默认配置
3.2. hbase-env.sh 3.3. log4j.properties 3.4. 重要的配置 3.5. 必须的配置 3.6. 推荐的配置
3.6.1. zookeeper.session.timeout 3.6.2. hbase.regionserver.handler.count 3.6.3. 大内存机器的配置 3.6.4. LZO 压缩 3.6.5. 更大的 Regions 3.6.6. 管理 Splitting
3.7. 连接Hbase集群的客户端配置和依赖
3.7.1. Java客户端配置
4. The HBase Shell
4.1. 使用脚本 4.2. Shell 技巧
4.2.1. irbrc 4.2.2. LOG 时间转换 4.2.3. Debug
5. 构建 HBase
5.1. 将一个 HBase release 加入到 Apache's Maven Repository
6. Developers
6.1. IDEs
6.1.1. Eclipse
6.2. 单元测试
6.2.1. Mocito
7. HBase 和 MapReduce
7.1. 默认 HBase MapReduce 分割器(Splitter) 7.2. HBase Input MapReduce 例子 7.3. 在一个MapReduce Job中访问其他的HBase Tables 7.4. 预测执行
8. HBase 的 Schema 设计
8.1. Schema 创建 8.2. column families的数量 8.3. 单调递增Row Keys/时序数据(log) 8.4. 尽量最小化row和column的大小 8.5. 版本的时间
9. Metrics
9.1. Metric 安装 9.2. RegionServer Metrics
9.2.1. hbase.regionserver.blockCacheCount 9.2.2. hbase.regionserver.blockCacheFree 9.2.3. hbase.regionserver.blockCacheHitRatio 9.2.4. hbase.regionserver.blockCacheSize 9.2.5. hbase.regionserver.compactionQueueSize 9.2.6. hbase.regionserver.fsReadLatency_avg_time 9.2.7. hbase.regionserver.fsReadLatency_num_ops 9.2.8. hbase.regionserver.fsSyncLatency_avg_time 9.2.9. hbase.regionserver.fsSyncLatency_num_ops 9.2.10. hbase.regionserver.fsWriteLatency_avg_time 9.2.11. hbase.regionserver.fsWriteLatency_num_ops 9.2.12. hbase.regionserver.memstoreSizeMB 9.2.13. hbase.regionserver.regions 9.2.14. hbase.regionserver.requests 9.2.15. hbase.regionserver.storeFileIndexSizeMB 9.2.16. hbase.regionserver.stores 9.2.17. hbase.regionserver.storeFiles
10. 跨集群复制 11. 数据模型
11.1. 概念视图 11.2. 物理视图 11.3. 表 11.4. 行 11.5. Column Family 11.6. Cells 11.7. 版本
11.7.1. Hbase的操作(包含版本操作) 11.7.2. 现有的限制
12. 架构
12.1. 客户端
12.1.1. 连接 12.1.2. 写缓冲和批量操作 12.1.3. Filters
12.2. Daemons
12.2.1. Master 12.2.2. RegionServer
12.3. Regions
12.3.1. Region大小 12.3.2. Region Splits 12.3.3. Region负载均衡 12.3.4. Store
12.4. Write Ahead Log (WAL)
12.4.1. 目的 12.4.2. WAL Flushing 12.4.3. WAL Splitting
13. 性能调优
13.1. Java
13.1.1. 垃圾收集和HBase
13.2. 配置
13.2.1. Regions的数目 13.2.2. 管理压缩 13.2.3. 压缩 13.2.4. hbase.regionserver.handler.count 13.2.5. hfile.block.cache.size 13.2.6. hbase.regionserver.global.memstore.upperLimit 13.2.7. hbase.regionserver.global.memstore.lowerLimit 13.2.8. hbase.hstore.blockingStoreFiles 13.2.9. hbase.hregion.memstore.block.multiplier
13.3. Column Families的数目 13.4. 数据聚集 13.5. 批量Loading
13.5.1. Table创建: 预创建Regions
13.6. HBase客户端
13.6.1. AutoFlush 13.6.2. Scan Caching 13.6.3. Scan 属性选择 13.6.4. 关闭 ResultScanners 13.6.5. 块缓存 13.6.6. Row Keys的负载优化
14. Bloom Filters
14.1. 配置
14.1.1. HColumnDescriptor 配置 14.1.2. io.hfile.bloom.enabled 全局关闭开关 14.1.3. io.hfile.bloom.error.rate 14.1.4. io.hfile.bloom.max.fold
14.2. Bloom StoreFile footprint
14.2.1. StoreFile中的BloomFilter, FileInfo数据结构 14.2.2. 在 StoreFile 元数据中的BloomFilter entries
15. Hbase的故障排除和Debug
15.1. 一般准则 15.2. Logs
15.2.1. Log 位置
15.3. 工具
15.3.1. search-hadoop.com 15.3.2. tail 15.3.3. top 15.3.4. jps 15.3.5. jstack 15.3.6. OpenTSDB 15.3.7. clusterssh+top
15.4. 客户端
15.4.1. ScannerTimeoutException
15.5. RegionServer
15.5.1. 启动错误 15.5.2. 运行时错误 15.5.3. 终止错误
15.6. Master
15.6.1. 启动错误 15.6.2. 终止错误
A. 工具
A.1. HBase hbck A.2. HFile 工具 A.3. WAL Tools
A.3.1. HLog 工具
A.4. 压缩工具 A.5. Node下线
A.5.1. 依次重启
B. HBase中的压缩
B.1. 测试压缩工具 B.2. hbase.regionserver.codecs B.3. LZO B.4. GZIP
C. FAQ D. YCSB: 雅虎云服务 测试 和Hbase Index

List of Tables

11.1.   表 webtable 11.2.   ColumnFamily anchor 11.3.   ColumnFamily contents

这本书是 HBase 的官方指南。 版本为 0.90.4.可以在Hbase官网上找到它。也可以在 javadocJIRA 和 wiki 找到更多的资料。

此书正在编辑中。 可以向 HBase 官方提供补丁JIRA.

这个版本系译者水平限制,没有理解清楚或不需要翻译的地方保留英文原文。

最前面的话

若这是你第一次踏入分布式计算的精彩世界,你会感到这是一个有趣的年代。分布式计算是很难的,做一个分布式系统需要很多软硬件和网络的技能。你的集群可以会因为各式各样的错误发生故障。比如Hbase本身的Bug,错误的配置(包括操作系统),硬件的故障(网卡和磁盘甚至内存) 如果你一直在写单机程序的话,你需要重新开始学习。这里就是一个好的起点: 分布式计算的谬论.

Chapter 1. 入门

1.1. 介绍

Section 1.2, “快速开始”会介绍如何运行一个单机版的Hbase.他运行在本地磁盘上。 Section 1.3, “慢速开始(相对快速开始)” 会介绍如何运行一个分布式的Hbase。他运行在HDFS上

1.2. 快速开始

本指南介绍了在单机安装Hbase的方法。会引导你通过shell创建一个表,插入一行,然后删除它,最后停止Hbase。只要10分钟就可以完成以下的操作。

1.2.1. 下载解压最新版本

选择一个 Apache 下载镜像,下载 HBase Releases. 点击 stable目录,然后下载后缀为 .tar.gz 的文件; 例如 hbase-0.90.4.tar.gz.

解压缩,然后进入到那个要解压的目录.

$ tar xfz hbase-0.90.4.tar.gz
$ cd hbase-0.90.4

现在你已经可以启动Hbase了。但是你可能需要先编辑 conf/hbase-site.xml 去配置hbase.rootdir,来选择Hbase将数据写到哪个目录 .

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>hbase.rootdir</name>
    <value>file:///DIRECTORY/hbase</value>
  </property>
</configuration>

将 DIRECTORY 替换成你期望写文件的目录. 默认 hbase.rootdir 是指向 /tmp/hbase-${user.name} ,也就说你会在重启后丢失数据(重启的时候操作系统会清理/tmp目录)

1.2.2. 启动 HBase

现在启动Hbase:

$ ./bin/start-hbase.sh
starting Master, logging to logs/hbase-user-master-example.org.out

现在你运行的是单机模式的Hbaes。所以的服务都运行在一个JVM上,包括Hbase和Zookeeper。Hbase的日志放在logs目录,当你启动出问题的时候,可以检查这个日志。

是否安装了 java ?

你需要确认安装了Oracle的1.6 版本的java.如果你在命令行键入java有反应说明你安装了Java。如果没有装,你需要先安装,然后编辑conf/hbase-env.sh,将其中的JAVA_HOME指向到你Java的安装目录。

1.2.3. Shell 练习

shell连接你的Hbase

$ ./bin/hbase shell
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Type "exit<RETURN>" to leave the HBase Shell
Version: 0.90.0, r1001068, Fri Sep 24 13:55:42 PDT 2010

hbase(main):001:0> 

输入 help 然后 <RETURN> 可以看到一列shell命令。这里的帮助很详细,要注意的是表名,行和列需要加引号。

创建一个名为 test 的表,这个表只有一个 column family 为 cf。可以列出所有的表来检查创建情况,然后插入些值。

hbase(main):003:0> create 'test', 'cf'
0 row(s) in 1.2200 seconds
hbase(main):003:0> list 'table'
test
1 row(s) in 0.0550 seconds
hbase(main):004:0> put 'test', 'row1', 'cf:a', 'value1'
0 row(s) in 0.0560 seconds
hbase(main):005:0> put 'test', 'row2', 'cf:b', 'value2'
0 row(s) in 0.0370 seconds
hbase(main):006:0> put 'test', 'row3', 'cf:c', 'value3'
0 row(s) in 0.0450 seconds

以上我们分别插入了3行。第一个行key为row1, 列为 cf:a, 值是 value1。Hbase中的列是由 column family前缀和列的名字组成的,以冒号间隔。例如这一行的列名就是a.

检查插入情况.

Scan这个表,操作如下

hbase(main):007:0> scan 'test'
ROW        COLUMN+CELL
row1       column=cf:a, timestamp=1288380727188, value=value1
row2       column=cf:b, timestamp=1288380738440, value=value2
row3       column=cf:c, timestamp=1288380747365, value=value3
3 row(s) in 0.0590 seconds

Get一行,操作如下

hbase(main):008:0> get 'test', 'row1'
COLUMN      CELL
cf:a        timestamp=1288380727188, value=value1
1 row(s) in 0.0400 seconds

disable 再 drop 这张表,可以清除你刚刚的操作

hbase(main):012:0> disable 'test'
0 row(s) in 1.0930 seconds
hbase(main):013:0> drop 'test'
0 row(s) in 0.0770 seconds 

关闭shell

hbase(main):014:0> exit

1.2.4. 停止 HBase

运行停止脚本来停止HBase.

$ ./bin/stop-hbase.sh
stopping hbase...............

1.2.5. 下一步该做什么

以上步骤仅仅适用于实验和测试。接下来你可以看 Section 1.3, “慢速开始(相对快速开始)” ,我们会介绍不同的Hbase运行模式,运行分布式Hbase中需要的软件 和如何配置。

1.3. 慢速开始(相对快速开始)

1.3.1. 需要的软件

Hbase有如下需要,请仔细阅读本章节以确保所有的需要都被满足。如果需求没有能满足,就有可能遇到莫名其妙的错误甚至丢失数据。

1.3.1.1. java

和Hadoop一样,Hbase需要Oracle版本的Java6.除了那个有问题的u18版本其他的都可以用,最好用最新的。

1.3.1.2. hadoop

该版本的Hbase只可以运行在Hadoop 0.20.x,不可以运行于hadoop 0.21.x (0.22.x也不行). HBase运行在没有持久同步功能的HDFS上会丢失数据。 Hadoop 0.20.2 和 Hadoop 0.20.203.0就没有这个功能。现在只有 branch-0.20-append 补丁有这个功能[1]. 现在官方的发行版都没有这个功能,所以你要自己打这个补丁。推荐看 Michael Noll 写的详细的说明, Building an Hadoop 0.20.x version for HBase 0.90.2.

你还可以用 Cloudera's CDH3. CDH 打了这个补丁 (CDH3 betas 就可以满足; b2, b3, or b4).

因为Hbase建立在Hadoop之上,所以他用到了hadoop.jar,这个Jar在 lib 里面。这个jar是hbase自己打了branch-0.20-append 补丁的hadoop.jar. Hadoop使用的hadoop.jar和Hbase使用的 必须 一致。所以你需要将 Hbase lib 目录下的hadoop.jar替换成Hadoop里面的那个,防止版本冲突。比方说CDH的版本没有HDFS-724而branch-0.20-append里面有,这个HDFS-724补丁修改了RPC协议。如果不替换,就会有版本冲突,继而造成严重的出错,Hadoop会看起来挂了。

我可以用Hbase里面的支持sync的hadoop.jar替代Hadoop里面的那个吗?

你可以这么干。详细可以参见这个邮件列表.

Hadoop 安全性

HBase运行在Hadoop 0.20.x上,就可以使用其中的安全特性 -- 只要你用这两个版本0.20S 和CDH3B3,然后把hadoop.jar替换掉就可以了.

1.3.1.3. ssh

必须安装ssh , sshd 也必须运行,这样Hadoop的脚本才可以远程操控其他的Hadoop和Hbase进程。ssh之间必须都打通,不用密码都可以登录,详细方法可以Google一下 ("ssh passwordless login").

1.3.1.4. DNS

HBase使用本地 hostname 才获得IP地址. 正反向的DNS都是可以的.

如果你的机器有多个接口,Hbase会使用hostname指向的主接口.

如果还不够,你可以设置 hbase.regionserver.dns.interface 来指定主接口。当然你的整个集群的配置文件都必须一致,每个主机都使用相同的网络接口

还有一种方法是设置 hbase.regionserver.dns.nameserver来指定nameserver,不使用系统带的.

1.3.1.5. NTP

集群的时钟要保证基本的一致。稍有不一致是可以容忍的,但是很大的不一致会造成奇怪的行为。 运行 NTP 或者其他什么东西来同步你的时间.

如果你查询的时候或者是遇到奇怪的故障,可以检查一下系统时间是否正确!

1.3.1.6.  ulimit 和 nproc

HBase是数据库,会在同一时间使用很多的文件句柄。大多数linux系统使用的默认值1024是不能满足的,会导致FAQ: Why do I see "java.io.IOException...(Too many open files)" in my logs?异常。还可能会发生这样的异常

      2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient: Exception increateBlockOutputStream java.io.EOFException
      2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient: Abandoning block blk_-6935524980745310745_1391901
      

所以你需要修改你的最大文件句柄限制。可以设置到10k. 你还需要修改 hbase 用户的 nproc,如果过低会造成 OutOfMemoryError异常。 [2] [3].

需要澄清的,这两个设置是针对操作系统的,不是Hbase本身的。有一个常见的错误是Hbase运行的用户,和设置最大值的用户不是一个用户。在Hbase启动的时候,第一行日志会现在ulimit信息,所以你最好检查一下。 [4]

1.3.1.6.1. 在Ubuntu上设置ulimit

如果你使用的是Ubuntu,你可以这样设置:

在文件 /etc/security/limits.conf 添加一行,如:

hadoop  -       nofile  32768

可以把 hadoop 替换成你运行Hbase和Hadoop的用户。如果你用两个用户,你就需要配两个。还有配nproc hard 和 soft limits. 如:

hadoop soft/hard nproc 32000

.

在 /etc/pam.d/common-session 加上这一行:

session required  pam_limits.so

否则在 /etc/security/limits.conf上的配置不会生效.

还有注销再登录,这些配置才能生效!

1.3.1.7. dfs.datanode.max.xcievers

一个 Hadoop HDFS Datanode 有一个同时处理文件的上限. 这个参数叫 xcievers (Hadoop的作者把这个单词拼错了). 在你加载之前,先确认下你有没有配置这个文件conf/hdfs-site.xml里面的xceivers参数,至少要有4096:

      <property>
        <name>dfs.datanode.max.xcievers</name>
        <value>4096</value>
      </property>
      

对于HDFS修改配置要记得重启.

如果没有这一项配置,你可能会遇到奇怪的失败。你会在Datanode的日志中看到xcievers exceeded,但是运行起来会报 missing blocks错误。例如: 10/12/08 20:10:31 INFO hdfs.DFSClient: Could not obtain block blk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io.IOException: No live nodes contain current block. Will get new block locations from namenode and retry... [5]

1.3.1.8. Windows

HBase没有怎么在Windows下测试过。所以不推荐在Windows下运行.

如果你实在是想运行,需要安装Cygwin 还虚拟一个unix环境.详情请看 Windows 安装指导 . 或者 搜索邮件列表找找最近的关于windows的注意点

1.3.2. HBase运行模式:单机和分布式

HBase有两个运行模式: Section 1.3.2.1, “单机模式” 和 Section 1.3.2.2, “分布式模式”. 默认是单机模式,如果要分布式模式你需要编辑conf 文件夹中的配置文件.

不管是什么模式,你都需要编辑 conf/hbase-env.sh来告知Hbase java的安装路径.在这个文件里你还可以设置Hbase的运行环境,诸如 heapsize和其他 JVM有关的选项, 还有Log文件地址,等等. 设置 JAVA_HOME指向 java安装的路径.

1.3.2.1. 单机模式

这是默认的模式,在 Section 1.2, “快速开始” 一章中介绍的就是这个模式. 在单机模式中,Hbase使用本地文件系统,而不是HDFS ,所以的服务和zooKeeper都运作在一个JVM中。zookeep监听一个端口,这样客户端就可以连接Hbase了。

1.3.2.2. 分布式模式

分布式模式分两种。伪分布式模式是把进程运行在一台机器上,但不是一个JVM.而完全分布式模式就是把整个服务被分布在各个节点上了 [6].

分布式模式需要使用 Hadoop Distributed File System (HDFS).可以参见 HDFS需求和指导来获得关于安装HDFS的指导。在操作Hbase之前,你要确认HDFS可以正常运作。

在我们安装之后,你需要确认你的伪分布式模式或者 完全分布式模式的配置是否正确。这两个模式可以使用同一个验证脚本Section 1.3.2.3, “运行和确认你的安装”

1.3.2.2.1. 伪分布式模式

伪分布式模式是一个相对简单的分布式模式。这个模式是用来测试的。不能把这个模式用于生产环节,也不能用于测试性能。

你确认HDFS安装成功之后,就可以先编辑 conf/hbase-site.xml。在这个文件你可以加入自己的配置,这个配置会覆盖 Section 3.1.1, “HBase 默认配置” and Section 1.3.2.2.2.3, “HDFS客户端配置”. 运行Hbase需要设置hbase.rootdir 属性.该属性是指Hbase在HDFS中使用的目录的位置。例如,要想 /hbase 目录,让namenode 监听locahost的9000端口,只有一份数据拷贝(HDFS默认是3份拷贝)。可以在 hbase-site.xml 写上如下内容

<configuration>
  ...
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://localhost:9000/hbase</value>
    <description>The directory shared by RegionServers.
    </description>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
    <description>The replication count for HLog & HFile storage. Should not be greater than HDFS datanode count.
    </description>
  </property>
  ...
</configuration>

Note

让Hbase自己创建 hbase.rootdir 目录,如果你自己建这个目录,会有一个warning,Hbase会试图在里面进行migration操作,但是缺少必须的文件。

Note

上面我们绑定到 localhost. 也就是说除了本机,其他机器连不上Hbase。所以你需要设置成别的,才能使用它。

现在可以跳到 Section 1.3.2.3, “运行和确认你的安装” 来运行和确认你的伪分布式模式安装了。 [7]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值