HBase总览
概念:Hbase是建立在Hadoop 文件系统(HDFS)之上面向列的分布式数据库.
HBase:运行在Hadoop 集群上的Apache 开源数据库。它属于非关系数据库管理系统
HBase可以处理大量数据,可以从Hadoop实时写入/读取数据
HBase数据以二进制存储在HDFS上
HDFS和HBase
HDFS和Hbase都可以结构化、半结构化和非结构化数据
HDFS缺少内存中的处理引擎使用普通的MapReduce
HBase有较快的读/写速度
HDFS和HBase的不同
HBase和RDBMS
RDBMS(静态):基于行的表结构的数据库管理系统,它连接相关的数据元素,并包含维护数据的安全性、准确性、完整性和一致性的功能
Hbase(动态):面向列的数据库管理系统,运行在Hadoop 分布式文件系统(HDFS)之上
不同
-
RDBMS需要SQL语句
-
RDBMS数据检索比HBase慢
-
RDBMS只可以处理结构化数据,而HBase可以处理结构化,半结构化,非结构化数据
-
RDBMS不适合稀疏表
HBase存储机制
概念:表(Schema)只定义列族,列族存储的是键值对。一个表可以有多个列族,每个列族(family)可以有任意数量的列(键)
-
表是行的集合
-
行是列族的集合
-
列族是列的集合