HBase工作原理

最新推荐文章于 2023-07-21 10:17:36 发布

VIP文章听挽风讲大数据

最新推荐文章于 2023-07-21 10:17:36 发布

阅读量867

点赞数

分类专栏： HBase 文章标签： HBase工作原理 HBase数据模型 HBase容错

本文链接：https://blog.csdn.net/huahuaxiaoshao/article/details/89479556

版权

1 HBase概述

（1）HBase的定义
      HBase：Hadoop Database，是一个高可靠、高性能、面向列、可伸缩、实时读写的分布式数据库。利用HBase技术可在廉价的PC Server上搭建大规模结构化存储集群。
      ① 高可靠：数据高可靠性：HBase利用Hadoop HDFS作为其文件存储系统；服务高可靠性：HBase利用Zookeeper作为协同服务。
      ② 高性能：传统关系型数据库在上亿条数据中查询时，速度极其慢。相比之下，HBase在上亿行、上百万列、上万个版本的数据上做查询时，速度要远高于传统关系型数据库。
      ③ 面向列：与传统数据库按行存储数据的方式不同，HBase是按列存储数据。
      ④ 可伸缩：HBase的集群节点数量可多可少。
      ⑤ 实时读写：HBase的读写时间是毫秒级的。
（2）HBase与BigTable的对比
      ① HBase是Google BigTable的开源实现，与Google BigTable利用GFS作为其文件存储系统类似，HBase利用Hadoop HDFS作为其文件存储系统；
      ② Google运行MapReduce来处理BigTable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；
      ③ Google BigTable利用Chubby作为协同服务，HBase利用Zookeeper作为协同服务。
（3）HBase存储什么格式的数据
      HBase主要用来存储非结构化和半结构化的松散数据（列存NoSQL数据库）。
（4）HBase与HDFS的对比
在这里插入图片描述
1）相同点：两者都具有良好的容错性和扩展性，都可以扩展到成百上千个节点。
2）HDFS适合的场景：
      ① 不支持数据随机查找；
      ② 不适合增量数据（新增的数据）处理；
      ③ 不支持数据更新。
3）HBase表的特点
      ① 大：一个表可以有数十亿行，上百万列；
      ② 无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；
      ③ 面向列：面向列（族）的存储和权限控制，列（族）独立检索；
      ④ 稀疏：对于空（null）的列，并不占用存储空间，表可以设计的非常稀疏；
      ⑤ 数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳；
      ⑥ 数据类型单一：HBase中数据都是字符串，没有类型。
（5）列存储与行存储
1）传统行式数据库
      ① 数据是按行存储的；
      ② 没有索引的查询使用大量I/O；
      ③ 建立索引和物化视图需要花费大量时间和资源；
      ④ 面向查询的需求，数据库必须被大量膨胀才能满足性能要求，即当查询某些列的时候，需要将所有的行加载，数据库会被大量膨胀，才能满足查询要求。
2）列式数据库
      ① 数据时按列存储，每一列单独存放在一块；
      ② 数据即是索引，换句话说某一列的内容都存在一块，找到这个块就可以；
      ③ 不用全行扫描，只需访问查询涉及的列，可以大量降低系统I/O&

最低0.47元/天解锁文章

听挽风讲大数据

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
HBase工作原理

1 HBase概述（1）HBase的定义      HBase：Hadoop Database，是一个高可靠、高性能、面向列、可伸缩、实时读写的分布式数据库。利用HBase技术可在廉价的PC Server上搭建大规模结构化存储集群。      ① 高可靠：数据高可靠性：HB...
复制链接

扫一扫