HBASE介绍

HBASE介绍

HBase是Apache下Hadoop项目的子项目,该技术来源于 Fay Chang 所写的Google论文《Bigtable》。
HBase是一个分布式、面向列存储(Column-Based)的开源数据库,可以存储海量数据(基于Hadoop的HDFS),具有低延迟的数据查询能力(秒级甚至毫秒级),属于NoSQL型数据库,即非关系型数据库。(mysql,oracle都是面向行存储)

行存储 VS 列存储

什么是行存储(Row-Based)?什么是列存储(Column-Based)?它们有什么区别,简单来说两者的区别就是如何组织表:
Ø Row-based storage stores atable in a sequence of rows.
Ø Column-based storage storesa table in a sequence of columns.
首先我们来看下这张图:
在这里插入图片描述
从上图可以清楚的看出,行式存储下一张表的数据都是放在一起的,但是列式存储下都是被分开保存的,所以它们就有了如下这些优缺点:
数据写入上对比
1)行存储写入是一次性完成,如果这种写入建立在操作系统的文件上,可以保证写入过程的成功或者失败,因此可以确定数据的完整性。
2)列存储由于把一行记录拆分成单列写入,写入的次数明显比行存储方式多,如果是机械硬盘,意味着磁头调度的次数多,而磁头调试是需要时间的(一般在1ms~10ms),再加上磁头在磁片上移动和定位也花费时间,所以从写入上来说行存储有老大的优势。
3)数据修改实际上也是一次写入过程,不同的是,数据修改是对磁盘上的记录做删除标记,行存储是在指定位置写入一次,列存储是将磁盘定位到多个列上分别写入,这个过程仍是行存储方式占优。
数据读取上对比
1)数据读取是时,行存储通常是将一行的数据完全读出,如果只需要其中几列的数据,就会产生冗余列,出于缩短处理时间的考量,消除冗余列的过程通常都是在内存中进行的。
2)列存储每次读取的数据是集合的一段或者全部,不存在冗余问题。
3)两种存储方式的数据分布,由于列存储的每一列数据类型都是同质的,不存在两义性情况,比如说某列数据类型为整型(Int),那么它的数据集合一定是整型数据,这种情况使数据解析变得非常不易。相比之下,行存储则要复杂的多,因为每一行中保存了多种数据类型,数据解析需要在多种数据类型之间转换,这个过程很消耗CPU,增加了解析的时间,所以列存储的解析过程更有利于分析处理大数据。
经上,显而易见两种存储方式各有各的优缺点,总结为:
行存储方式的写入时消耗时间比列存储方式的少,并且能保证数据完整性,缺点是读取过程中会产生冗余数据,如果在数据量大时会影响到数据处理效率。
列存储在写入、保证数据完整性上都不如行存储,但优点是读取过程中不会产生冗余数据,这对于数据完整性不高时的大数据处理领域,犹为重要。
行式存储和列式存储数据库的特性
传统行式数据库的特性如下:

①数据是按行存储的。
②没有索引的查询使用大量I/O,一般的数据库表都会建立索引,通过索引加快查询效率。
③建立索引和物化视图需要花费大量的时间和资源。
④面对查询需求,数据库必须被大量膨胀才能满足需求。
列式数据库的特性如下:
①数据按列存储,即每一列单独存放。
②数据即索引。
③只访问查询涉及的列,可以大量降低系统I/O。
④每一列由一个线程来处理,即查询的并发处理性能高。
⑤数据类型一致,数据特征相似,可以高效压缩。比如有增量压缩、前缀

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值