前言:
1、HBase
HBase 是在 Hadoop 分布式文件系统(简称:HDFS)之上的分布式面向列的数据库。而且是 2007 最初原型,历史悠久。 那追根究底,Hadoop 是什么?Hadoop是一个分布式环境存储并处理大数据。Hadoop 使用 MapReduce 算法统计分析大数据。
场景:
- 监控数据的日志详情
- 交易订单的详情数据(淘宝、有赞)
- facebook 的消息详情
HBase 在 Hadoop 之上提供了类似 BigTable 的能力,它不同于一般的关系数据库,是一个适合非结构化数据存储的数据库。它也不同于行式数据库,是基于列的模式。
HBase 一个面向列的数据库,排序由行决定。
- 表是行的集合。
- 行是列族的集合。列族,就是键值对。每个列族以 key 为列命名,可以有无数的列。
- 列族就是列的集合。列连续存储,并且每个单元会有对应的时间戳
- 列的存储也是键值对。
与行式数据库最大的区别就是,可以面向列设计巨大表,适用于在线分析处理 OLAP。
与关系型数据库 RDBMS 也有些区别如下:
- HBase 宽表,横向扩展。RDBMS 小表,难成规模
- HBase 没有事务
- HBase 无规范化数据,都是键值对 key value
2、使用配置
2.1 org.apache.hadoop.conf.Configuration
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.MasterNotRunningException;
import org.