1,主要用来存储非结构化数据和半结构化数据,当然,例如mysql或oracle结构化数据也可以存储
2,为什么要用Hbase?
因为数据存储在HDFS中比较杂乱,Hbase起到对数据过滤的作用,比如HDFS中存储了很多年的数据记录,但是我们只要处理近一年的数据,就可以过滤出来存储到Hbase中来处理,还有处理之后的输出数据存储在Hbase要比存储在HDFS中要好得多。
3,Hbase数据库没有update操作,因为每个单元格数据都有多个不同版本,不同版本之间是根据时间戳区分的,根据时间戳可以取到最新版本数据
4,根据rowkey ,列簇,列,时间戳确定一个单元格,其Rowkey是主键,决定有几行数据,一个主键对应一行数据;时间戳决定单元格版本
5,Hbase没有数据类型,不像mysql或者oracle的字段有数据类型,Hbase的数据全部以字节码存储,
6,并且Hbase不需要事先定义字段列,不像传统型数据库必须先定义字段,Hase只需要定义它的表名和列簇,其Rowkey,时间戳是自动生成的(时间戳也可以自定义,不过要用唯一的时间戳),列是自动分配的