HBase简介
– HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、
实时读写的分布式数据库
– 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理
HBase中的海量数据,利用Zookeeper作为其分布式协同服务
– 主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库)
数据模型:
在使用关系型数据库设计表时,比如设计一个User表,包含字段:name,sex,fav,但是由于fav(爱好)可能会有多个,这时候就需要再添加一张fav的扩展表,但是在HBase中,就不需要。
因为HBase是面向列族的,可以动态添加。
上图是User表中的一行数据。
一、“1、2”是row key,决定一行数据,类似关系型数据库的行ID,按照字典顺序排序,row key 最多只能存储64K的字节数据。
二、”cf1、cf2”是两个列族,HBase表中的每个列都归属于某个列族,列族必须作为表模式定义的一部分预先给出。如 这张表建立时:create ‘User’, ‘cf1’,’cf2’;
列名以