HBASE介绍

最新推荐文章于 2023-04-06 10:10:30 发布

答案798

最新推荐文章于 2023-04-06 10:10:30 发布

阅读量513

点赞数

分类专栏：大数据文章标签： HBase介绍 HBASE

本文链接：https://blog.csdn.net/weixin_43519014/article/details/85254757

版权

HBASE介绍

HBase是Apache下Hadoop项目的子项目，该技术来源于 Fay Chang 所写的Google论文《Bigtable》。
HBase是一个分布式、面向列存储（Column-Based）的开源数据库，可以存储海量数据（基于Hadoop的HDFS），具有低延迟的数据查询能力（秒级甚至毫秒级），属于NoSQL型数据库，即非关系型数据库。（mysql，oracle都是面向行存储）

行存储 VS 列存储

什么是行存储（Row-Based）？什么是列存储（Column-Based）？它们有什么区别，简单来说两者的区别就是如何组织表：
Ø Row-based storage stores atable in a sequence of rows.
Ø Column-based storage storesa table in a sequence of columns.
首先我们来看下这张图：
在这里插入图片描述
从上图可以清楚的看出，行式存储下一张表的数据都是放在一起的，但是列式存储下都是被分开保存的，所以它们就有了如下这些优缺点：
数据写入上对比
1）行存储写入是一次性完成，如果这种写入建立在操作系统的文件上，可以保证写入过程的成功或者失败，因此可以确定数据的完整性。
2）列存储由于把一行记录拆分成单列写入，写入的次数明显比行存储方式多,如果是机械硬盘，意味着磁头调度的次数多，而磁头调试是需要时间的（一般在1ms~10ms），再加上磁头在磁片上移动和定位也花费时间，所以从写入上来说行存储有老大的优势。
3）数据修改实际上也是一次写入过程，不同的是，数据修改是对磁盘上的记录做删除标记，行存储是在指定位置写入一次，列存储是将磁盘定位到多个列上分别写入，这个过程仍是行存储方式占优。
数据读取上对比
1）数据读取是时，行存储通常是将一行的数据完全读出，如果只需要其中几列的数据，就会产生冗余列，出于缩短处理时间的考量，消除冗余列的过程通常都是在内存中进行的。
2）列存储每次读取的数据是集合的一段或者全部，不存在冗余问题。
3）两种存储方式的数据分布，由于列存储的每一列数据类型都是同质的，不存在两义性情况，比如说某列数据类型为整型（Int），那么它的数据集合一定是整型数据，这种情况使数据解析变得非常不易。相比之下，行存储则要复杂的多，因为每一行中保存了多种数据类型，数据解析需要在多种数据类型之间转换，这个过程很消耗CPU，增加了解析的时间，所以列存储的解析过程更有利于分析处理大数据。
经上，显而易见两种存储方式各有各的优缺点，总结为：
行存储方式的写入时消耗时间比列存储方式的少，并且能保证数据完整性，缺点是读取过程中会产生冗余数据，如果在数据量大时会影响到数据处理效率。
列存储在写入、保证数据完整性上都不如行存储，但优点是读取过程中不会产生冗余数据，这对于数据完整性不高时的大数据处理领域，犹为重要。
行式存储和列式存储数据库的特性
传统行式数据库的特性如下：
①数据是按行存储的。
②没有索引的查询使用大量I/O，一般的数据库表都会建立索引，通过索引加快查询效率。
③建立索引和物化视图需要花费大量的时间和资源。
④面对查询需求，数据库必须被大量膨胀才能满足需求。
列式数据库的特性如下：
①数据按列存储，即每一列单独存放。
②数据即索引。
③只访问查询涉及的列，可以大量降低系统I/O。
④每一列由一个线程来处理，即查询的并发处理性能高。
⑤数据类型一致，数据特征相似，可以高效压缩。比如有增量压缩、前缀

最低0.47元/天解锁文章

答案798

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HBASE介绍

HBASE介绍HBase是Apache下Hadoop项目的子项目，该技术来源于 Fay Chang 所写的Google论文《Bigtable》。HBase是一个分布式、面向列存储（Column-Based）的开源数据库，可以存储海量数据（基于Hadoop的HDFS），具有低延迟的数据查询能力（秒级甚至毫秒级），属于NoSQL型数据库，即非关系型数据库。（mysql，oracle都是面向行存储）...
复制链接

扫一扫

专栏目录