HBase基础

最新推荐文章于 2024-04-15 15:23:01 发布

wangzhangni

最新推荐文章于 2024-04-15 15:23:01 发布

阅读量210

点赞数

本文链接：https://blog.csdn.net/wangzhangni/article/details/102489496

版权

一、基本介绍

1、简介

是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写Nosql的数据库
Nosql数据库：非关系型数据库
关系型数据库：分为行存储和列存储，可相互转化
HBase来源于Google思想 gfs mapreduce bigtable==>hbase
仅支持一些简单的事务
mysql:select *from biao; insert into biao values(zi);
HBase与hdfs是紧耦合关系
实时读写数据库：
hive比较适合离线的处理
hbase:实时读取 1mb=>1gb=>1tb=>1pb在几十或者几百毫秒就可以返回数据
rowkey 行键
主要用于存储结构化和半结构化的松散数据
查询数据功能很简单，不支持join等复杂操作，不支持复杂的事务（行级的事务）
支持的数据类型：byte[]
与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

2、特点

大：一个表可以有上十亿行，上百万列
面向列:面向列(族)的存储和权限控制，列(族)独立检索。
稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。

3、发展历程

HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。
官方网站：http://hbase.apache.org

2006年Google发表BigTable白皮书
2006年开始开发HBase
2008 HBase成为了 Hadoop的子项目
2010年HBase成为Apache顶级项目

二、HBase与Hadoop的关系

1、hadoop ==> hdfs

分布式文件存储系统
适合一次写入多次读取
hdfs不是随机读取
直接使用文件
数据模型不灵活
使用文件系统和处理框架

2、HBase

面向列的数据存储,存储在hdfs上
适合多次频繁的写入和读取
可以随机读取某一条数据
使用表状存储，支持MapReduce，依赖HDFS
提供灵活的数据模型
使用key-value操作数据

三、RDBMS与HBase的对比

1、关系型数据库

mysql oracle db2 sqlserver

1）结构

以表的形式存在
适合存储结构化数据
支持FAT、NTFS、EXT、文件系统

使用Commit log存储日志
参考系统是坐标系统
使用主键（PK）
支持分区
使用行、列、单元格

2）功能

支持向上扩展
支持SQL面向列的查询
面向行，即每一行都是一个连续单元
数据总量依赖于服务器配置
具有ACID支持
适合存储结构化数据结构
传统关系型数据库一般都是中心化的
支持事务
支持Join

2、HBase

1）结构

数据库以region(区域)的形式存在,一张表在逻辑上划分为一个region或者是多个region进行管理
支持HDFS文件系统
使用WAL（Write-Ahead Logs）存储日志
参考系统是Zookeeper
使用行键（row key）
支持分片
使用行、列、列族和单元格
和zookeeper是紧耦合关系

2）功能

支持向外扩展
使用API和MapReduce来访问HBase表数据
面向列，即每一列都是一个连续的单元
数据总量不依赖具体某台机器，而取决于机器数量
HBase不支持ACID（Atomicity、Consistency、Isolation、Durability）
适合结构化数据和非结构化数据
一般都是分布式的
HBase不支持事务
不支持Join

四、特征

1、海量存储

Hbase适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性，才为海量数据的存储提供了便利。

2、列式存储

这里的列式存储其实说的是列族存储，Hbase是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。
列族(列簇): user: info:name,age,address

3、极易扩展

Hbase的扩展性主要体现在两个方面，一个是基于上层处理能力（RegionServer）的扩展，一个是基于存储的扩展（HDFS）。
通过横向添加RegionSever的机器，进行水平扩展，提升Hbase上层的处理能力，提升Hbsae服务更多Region的能力。
注： RegionServer的作用是管理region、承接业务的访问，这个后面会详细的介绍通过横向添加Datanode的机器，进行存储层扩容，提升Hbase的数据存储能力和提升后端存储的读写能力。

4、高并发

由于目前大部分使用Hbase的架构，都是采用的廉价PC，因此单个IO的延迟其实并不小，一般在几十到上百ms之间。这里说的高并发，主要是在并发的情况下，Hbase的单个IO延迟下降并不多。能获得高并发、低延迟的服务。

5、稀疏

稀疏主要是针对Hbase列的灵活性，在列族中，你可以指定任意多的列，在列数据为空的情况下，是不会占用存储空间的。

五、基础架构

最低0.47元/天解锁文章

wangzhangni

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HBase基础

一、基本介绍1、简介是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写Nosql的数据库Nosql数据库：非关系型数据库关系型数据库：分为行存储和列存储，可相互转化HBase来源于Google思想 gfs mapreduce bigtable==>hbase仅支持一些简单的事务mysql:select *from biao; insert into biao...
复制链接

扫一扫