Spark实战—— (2.1) HBase表格结构、物理存储结构与系统架构

本文介绍了HBase的基础知识,包括HBase是什么,列式存储与行式存储的区别,HBase的表格结构,物理存储结构以及系统架构。HBase是一个基于列的列式数据库,利用HDFS进行存储,MapReduce进行计算,Zookeeper提供协同服务。表格由RowKey、ColumnFamily和Cell组成,物理存储中Region会随着数据增长进行切分。系统架构中,HMaster负责Region分配,HRegionServer处理IO请求,而Zookeeper用于协调和服务发现。
摘要由CSDN通过智能技术生成

1. HBase简介

1.1 HBase是什么?

HBase,即Hadoop DataBase,是Hadoop的一个子项目,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,是Google Bigtable的开源实现。

HBase在Hadoop生态中的位置如下[1]——

  • 使用HDFS作为其分布式存储系统,提供了高可靠的底层存储支持
  • 使用MapReduce来处理海量数据,提供了高性能的计算能力
  • 使用Zookeeper提供协同/协调服务,提供了稳定服务和failover机制(故障切换)
1.2 列式存储与行式存储

上面说到HBase是基于列列式数据库,而常用的关系数据库则是行式数据库,此处对两个概念做简单区分。

行式存储是指数据以为单位进行存储,同一的数据在存储介质中连续,如Oracle、Mysql、Sql Server

列式存储是指数据以为单位进行存储,同一的数据在存储介质中连续,如HBase、HP vertica等分布式数据库

行式存储适合处理OLTP,对实时性要求较高的应用,如ATM系统——

  • INSERT/UPDATE容易,适合随机数据的增加和删除
  • 适合需要获取行中所有属性的查询操作
  • 数据量很大时且没有索引时,需要大量IO(如只需要查询两列,但仍然要把每一行都读出来)
  • 建立索引等提高性能的操作花时间、占空间

列式存储适合处理OLAP,实时性要求不高,但数据量大——

  • 每一列都可以作为索引进行查询
  • 查询时只有涉及的列被读取
  • 各列独立存储,可根据每一列的实际情况进行压缩,节省存储空间
  • 查询时对各个列并行查询,再进行组合(查询示意图如下)
  • INSERT/UPDATE比较麻烦,不适合需要频繁更新的应用

2. HBase表格结构

HBase的表格中涉及到几个概念,用一个例子来解释,这一部分看了很多博客,其中HBase概念及表格设计解释得很通俗,可以看一下。

HBase中一个可能的表格如下,包括:

  • RowKey:行键,类似关系表中的主键,是用来表示唯一一行记录的主键,按字典序排列
  • Column:列,类似关系表中的列,在下图中的列就是Gender,Age,Province,City
  • ColumnFamily:列族,是列的集合,不同的列族存储在不同文件中,引入这个概念是因为HBase查询中,很多情况下不需要一行中所有的列
  • Cell:单元格,由【RowKey、Column】确定的单元格,如下图中的Male,20...
  • TimeStamp:数据修改时加入的时间戳,下图中作为单独一列,实际上这个值是存放在单元格中的,见下面的例子

HBase的表数据内部用Map实现[5],如上图用字典/JSON形式可表示如下:

{
   "Mike":{
   
    "BasicInfo":{
   
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值