大数据-第15章 hbase 概况

最新推荐文章于 2023-11-24 16:33:19 发布

搬砖大师傅

最新推荐文章于 2023-11-24 16:33:19 发布

阅读量769

点赞数

分类专栏：大数据文章标签： hbase

本文链接：https://blog.csdn.net/lkk_123456/article/details/108095065

版权

1.hbase简介
答：
hadoop database是一个高可靠、高性能、面向列、可伸缩、实时读写的分布式数据库，是主要用来存储非结构化和半结构化的松散数据。
2.关系数据库和hadoop面临的问题
答:
①hadoop可以很好地解决大规模数的离线批量处理问题，但是，受限于hadoop MapReduce编程框架的高延迟数据处理机制，使的hadoop无法满足大规模数据实时处理应用的需求；
②HDFS是批量访问模式，不是随机访问模式；
③关系型数据库无法应对在数据规模剧增时导致系统扩展性和性能问题；
④传统关系数据库在数据结构变化是一般需要停机维护，空列浪费存储空间。
3.HBASE与传统数据库的区别
答：
①数据类型：关系数据库采用关系模型，具有丰富的数据类型和存储方式，HBASE则采用了更加简单的数据模型，它把数据存储为未经解释的字符串；②数据操作：关系数据库中包含了丰富的操作，其中会涉及复杂的多表链接。HBASE操作则不存在复杂的表与表之间的关系，只有简单的插入、查询、删除、清空等，因为HBASE在设计上避免了复杂的表和表之间的关系；③存储模式：关系数据库是基于行模式存储。HBASE是基于列存储，每个列族都由几个文件保存，不同列族文件是分离的；
④数据索引：关系数据库通常可以针对不同列构建复杂的多个索引，可以提高数据访问的性能，HBASE只有一个索引——行键；
⑤数据维护：在关系数据库中，更新操作作用会用最新的当前值去替换记录中原来的数据，旧值被覆盖后就不会存在，而在HBASE中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧的版本仍然保留；⑥可伸缩性：关系数据库很难实现横向扩展，纵向扩展的空间也比较有限，HBASE这些分布式数据库就是为了实现灵活的水平扩展而开发的，能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩。
4.client
答：
包含访问HBASE的接口并维护cache来加快对HBASE的访问，同时在缓存中维护着已经访问过的region位置信息，用来加快后续数据访问过程。
5.zookeeper
答：
任何时候，一个集群只有一个master，存储所有的region的寻址入口，实时监控region server的上线和下线信息，并实时通知master存储HBASE的schema和table元数据。
6.master
答：
①为r