Spark实战—— (2.1) HBase表格结构、物理存储结构与系统架构

最新推荐文章于 2024-08-27 00:42:19 发布

茵茵的聪聪

最新推荐文章于 2024-08-27 00:42:19 发布

阅读量874

点赞数

分类专栏：大数据学习记录文章标签： Spark Hbase 表格结构 zookeeper

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36153312/article/details/90704549

版权

本文介绍了HBase的基础知识，包括HBase是什么，列式存储与行式存储的区别，HBase的表格结构，物理存储结构以及系统架构。HBase是一个基于列的列式数据库，利用HDFS进行存储，MapReduce进行计算，Zookeeper提供协同服务。表格由RowKey、ColumnFamily和Cell组成，物理存储中Region会随着数据增长进行切分。系统架构中，HMaster负责Region分配，HRegionServer处理IO请求，而Zookeeper用于协调和服务发现。

摘要由CSDN通过智能技术生成

文章目录

1. HBase简介

1.1 HBase是什么？

HBase，即Hadoop DataBase，是Hadoop的一个子项目，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，是Google Bigtable的开源实现。

HBase在Hadoop生态中的位置如下^[1]——

使用HDFS作为其分布式存储系统，提供了高可靠的底层存储支持
使用MapReduce来处理海量数据，提供了高性能的计算能力
使用Zookeeper提供协同/协调服务，提供了稳定服务和failover机制（故障切换）

1.2 列式存储与行式存储

上面说到HBase是基于列的列式数据库，而常用的关系数据库则是行式数据库，此处对两个概念做简单区分。

行式存储是指数据以行为单位进行存储，同一行的数据在存储介质中连续，如Oracle、Mysql、Sql Server

列式存储是指数据以列为单位进行存储，同一列的数据在存储介质中连续，如HBase、HP vertica等分布式数据库

行式存储适合处理OLTP，对实时性要求较高的应用，如ATM系统——

INSERT/UPDATE容易，适合随机数据的增加和删除
适合需要获取行中所有属性的查询操作
当数据量很大时且没有索引时，需要大量IO（如只需要查询两列，但仍然要把每一行都读出来）
建立索引等提高性能的操作花时间、占空间

列式存储适合处理OLAP，实时性要求不高，但数据量大——

每一列都可以作为索引进行查询
查询时只有涉及的列被读取
各列独立存储，可根据每一列的实际情况进行压缩，节省存储空间
查询时对各个列并行查询，再进行组合（查询示意图如下）
INSERT/UPDATE比较麻烦，不适合需要频繁更新的应用

2. HBase表格结构

HBase的表格中涉及到几个概念，用一个例子来解释，这一部分看了很多博客，其中HBase概念及表格设计解释得很通俗，可以看一下。

HBase中一个可能的表格如下，包括：

RowKey：行键，类似关系表中的主键，是用来表示唯一一行记录的主键，按字典序排列
Column：列，类似关系表中的列，在下图中的列就是Gender,Age,Province,City
ColumnFamily：列族，是列的集合，不同的列族存储在不同文件中，引入这个概念是因为HBase查询中，很多情况下不需要一行中所有的列
Cell：单元格，由【RowKey、Column】确定的单元格，如下图中的Male,20...
TimeStamp：数据修改时加入的时间戳，下图中作为单独一列，实际上这个值是存放在单元格中的，见下面的例子

HBase的表数据内部用Map实现^[5]，如上图用字典/JSON形式可表示如下：

{
   "Mike":{
   
    "BasicInfo":{

最低0.47元/天解锁文章

茵茵的聪聪

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

茵茵的聪聪 CSDN认证博客专家 CSDN认证企业博客

码龄8年

79: 原创

5万+: 周排名

177万+: 总排名

16万+: 访问

: 等级

2093: 积分

87: 粉丝

115: 获赞

8: 评论

647: 收藏

私信

关注

分类专栏

最新评论

Hadoop学习——(5) MapReduce实现PageRank
JackHui007: PageCount写法： public enum PageCouter { TotalPage, ConvergePage }
Hadoop学习——(5) MapReduce实现PageRank
七哥女友: 您好，请问PageCouter类怎么写的
因果推断——简介
c++的永恒花园: 谢谢大佬救我狗命
Spark2.X学习(1) - 结构化API概述（DataFrame与DataSet）
我姓万，家财万贯的万: 基于Spark2.x机器学习十大案例全方位剖析下载地址：https://pan.baidu.com/s/1yGkiejLXgauw0spujeSeRw 提取码: 2bx5
AB实验样本量确定
weixin_40591156: 上述z test计算的方差的有误，不应该直接是1，而是σ=ptest(1−ptest)+pcontrol(1−pcontrol)=0.45*0.55+0.4*0.6=0.4875，最终计算的样本量为1533,和卡方检验计算的差不多

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。