Hbase简介

最新推荐文章于 2024-01-24 01:53:24 发布

今天不熬夜L

最新推荐文章于 2024-01-24 01:53:24 发布

阅读量429

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_45860217/article/details/109248606

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

HBase简介

HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。

为什么要用HBase

Hadoop可以很好地解决大规模数据地离线批量处理问题，但是，受限于Hadoop MapReduce编程框架地高延迟数据处理机制，使得Hadoop无法满足大规模数据实时处理应用的需求
HDFS面向批量访问模式，不是随机访问模式
传统的通用关系型数据库无法应对在数据规模剧增时导致的系统的扩展性和性能问题（分库分表也不能很好解决）
传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间
因此，业界出现了一类面向半结构化数据存储和处理的高可扩展、低写入/查询延迟的系统，例如，键值数据库、文档数据库和列族数据库（如BigTable和HBase等）
HBase已经成功应用于互联网服务领域和传统行业的众多在线式数据分析处理系统中

HBase与传统关系数据库的主要区别

数据类型：关系型数据库采用关系模型，具有丰富的数据类型和存储方式，HBase则采用了更加简洁的数据模型，它把数据存储为未经解释的字符串
数据操作：关系数据库中包含了丰富的操作，其中会涉及复杂的多表连接。HBase操作则不存在复杂的表与表之间的关系，只有简答的插入、查询、删除、清空等，因为HBase在设计上就避免了复杂的表和表之间的关系
存储模式：关系数据库是基于行模式存储的。HBase是基于列存储的，每个列族都由几个文件保存，不同列族的文件是分离的
数据索引：关系数据库通常可以针对不同列构建复杂的多个索引，以提高数据访问性能。HBase只有一个索引——行键，通过巧妙的设计，HBase中的所有访问方法，或者通过行键访问，或者通过行键扫描，从而使得整个系统不会慢下来
数据维护：在关系数据库中，更新操作会用最新的当前值去替换记录中原来的旧值，旧值被覆盖后就不会存在。而在HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍然保留
可伸缩性：关系数据库很难实现横向扩展，纵向扩展的空间也比较有限。相反，HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的，能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩

今天不熬夜L

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hbase简介

HBase简介HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。为什么要用HBaseHadoop可以很好地解决大规模数据地离线批量处理问题，但是，受限于Hadoop MapReduce编程框架地高延迟数据处理机制，使得Hadoop无法满足大规模数据实时处理应用的需求HDFS面向批量访问
复制链接

扫一扫

专栏目录