Hbase简介_hbase array-CSDN博客

本文链接：https://blog.csdn.net/king_a_123/article/details/53103494

1.flume:离线数据处理的时候，用于收集数据！
sqoop: 完成关系型数据和非关系型数据库之间的转换(1.将最终结果都存放到关系型数据库中；2.将关系型数据库中的数据导入到非关系型数据中)！
mahout:对机器学习的算法用MapReduce来了个分布式的开源实现（分布式计算，提高效率，针对大数据量）！

2.Hbase的数据最终也是放到HDFS上！

3.在Habse中Zookeeper就不仅仅是高可用了，zookeeper里面放了Hbase的一些数据，不做高可用，hbase也是需要zookeeper!

4.Hbase支持长运行，列式数据库，列式数据库能够横向收缩，Hbase本身支持可伸缩，高可靠，高性能，面向列，实时读写的分布式数据库；

5.Hbase简介：
   1）HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。
   2）利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 HBase中的海量数据,利用Zookeeper作为其分布式协同服务
   3）主要用来存储非结构化和半结构化的松散数据（列存 NoSQL 数据库）

Hbase与zookeeper之间的关系：
   hbase与zookeeper之间不仅仅是：zookeeper为hbase做高可用，zookeeper还管理这RegionServer的信息及与HMaster通信！

6.rowkey是按照字典顺序排序的，所以Hbase数据库中的数据是有序的，rowkey最多能够存储64k的字节数据，所以rowkey尽量设计的短一些，小一些！！
理论上Hbase上可以存储任何数据，只要我们的数据转化成字节数组类型(这是Hbase存放数据时，任何数据存储到HBASE必须遵守的规则)！

7.Hbase数据模型：
   – ROW KEY
       – 决定一行数据
       – 按照字典顺序排序的。
       – Row key只能存储64k的字节数据


   – Column Family列族 & qualifier列
       – HBase表中的每个列都归属于某个列族，列族必须作为表模式(schema)定义的一部分预先给出。如 create ‘test’, ‘course’；
       – 列名以列族作为前缀，每个“列族”都可以有多个列成员(column)；如course:math, course:english, 新的列族成员（列）可以随后按需、动态加入；
       – 权限控制、存储以及调优都是在列族层面进行的；
       – HBase把同一列族里面的数据存储在同一目录下，由几个文件保存。



   – Timestamp时间戳
       – 在HBase每个cell存储单元对同一份数据有多个版本，根据唯一的时间戳来区分每个版本之间的差异，不同版本的数据按照时间倒序排序，最新的数据版本排在最前面。
       – 时间戳的类型是 64位整型。
       – 时间戳可以由HBase(在数据写入时自动)赋值，此时时间戳是精确到毫秒的当前系统时间。
       – 时间戳也可以由客户显式赋值，如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。

   - Cell单元格
       – 由行和列的坐标交叉决定；
       – 单元格是有版本的；
       – 单元格的内容是未解析的字节数组；
            由{row key， column( =<family> +<qualifier>)， version} 唯一确定的单元。 cell中的数据是没有类型的，全部是字节码形式存贮。

– HLog(WAL log)
       – HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和region名字外，同时还包括 sequence number和timestamp，timestamp是”写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统中sequence number。
       – HLog SequeceFile的Value是HBase的KeyValue对象，即对应HFile中的KeyValue。

8.Hbase的调优都是在列族层面下，同一个列族中的数据都是存储在同一个目录下，由几个文件保存，而且这些小文件是会合并的！

9.Hbase中没有update操作,但是我