Java架构师趣谈Hbase之宏观架构

相关文章

五分钟轻松了解Hbase列式存储

Hbase给初学者的“下马威”

Hbase王国游记之:Hbase客户端API初体验


?§团结力量大

原始社会,由若干血缘相近的宗族、氏族结合起来集体生活,这就是
部落。最高首领就是酋长,此外还可能会有军事首领,他们一起繁衍生息。

到了原始社会末期,频繁战争,若干个亲近的或有共同利益的部落,结成暂时的或永久的
联盟,一起去和别人PK,这就是部落联盟

部落联盟的性质和部落相同,它们也有最高首领,权利机关等。中国古籍记载的黄帝、蚩尤,以及尧、舜、禹都是部落联盟的首领。

通过这个事情,至少记住两点:第一个是团结力量大。这很显然。第二个是外交上比较有名的一句话,“没有永恒的敌人,只有永恒的利益”。

?§把部落搬进计算机

计算机的历史才几十年而已,与人类社会相比,那是货真价实的“后生”。虽然现在计算机已经很厉害了,但是单台的能力总是有上限的。

原始社会都知道团结力量大,那就让计算机团结起来吧。把若干台计算机通过网络结合起来,就形成了
计算机界的部落(或部落联盟)。

我们也要选出一台计算机当“酋长”啊,于是被选出来的那一台通常称为
Master节点,剩余的称为Slave节点。就是我们常说的Master/Slave。但是Slave有奴隶的意思,会被一些国家反对,所以就有了另外一套叫法,Leader/Follower,中文称为/

这个计算机界的部落就称为
集群

?§Hbase集群

Hbase的设计目标就是海量存储能力,所以它必须是一个
集群。它的“酋长”就称为Master节点,剩余的每个节点就称为Region Server

酋长为了更好地管理本部落人员,一般还会设置一个最高
军事首领,来辅助自己。可以理解为我们常说的军师

Hbase集群也有自己的“军师”,它就是
ZooKeeper。ZooKeeper本身也是一个集群

酋长这个角色是很重要的,一旦战死,整个部落将
群龙无首,容易内讧,所以必须立马再选出一个酋长。

酋长需要具有很强的能力,不是谁都能当的。所以平时需要一个
后备酋长时时刻刻候着,以防不测。其实就是个备胎。

所以Hbase中正常的那个Master节点称为
Active Master节点,至少还有一个后备的Master节点称为Backup Master节点。这两个Master节点之间经常互通有无,保持信息一致



一旦这个Active Master节点英勇就义后,由“军师”ZooKeeper负责从Backup Master节点中选出一个成为新的老大。因为它本来就是后备待命状态,所以一上来就可以接替工作,没有“实习期”的。

Master节点主要负责
管理类的工作,其余的Region Server节点则主要负责干活了,如数据的读/写等。

?§化整为零

Hbase是以行的形式实现面向列的存储,其实还是
行存。能够支持数十亿行,可见它是一个非常长的表。

实际生活中,超长物体的加工、运输都很麻烦,所以人们就
截成一段一段的,分段处理好,最后再拼接到一起。

采用相同的方法,把Hbase的超长表分成若干段,每一段称为一个
Region。相当于传统关系型数据库的横向分表



所有的Region拼接起来就形成了Hbase中的一个完整表。就像所有车厢拼接起来就形成了一列完整的列车一样。

Hbase是面向列的,所以在存入一行数据时,
某些列族可以完全没有数据。比如一个刚毕业的学生就没有工作经历,那工作经历这个列族就是空的。

可见列族与列族之间的
差别有时非常大,所以存储时也是分开的,即一个列族一个存储,把这个存储称为Store

所以一个Region里可以有
一到多个Store。




?§存储结构

Hbase集群中负责实际数据工作的是很多的
Region Server服务器。每个表从逻辑上被切分为很多Region

很明显最后要把这些
Region分配到这些Region Server服务器上,这个分配的工作是由Master节点完成的。



Hbase的设计目标就是要支持实时的读写。所以写入的速度必须要快,还有个隐形的前提就是数据也要安全才行。

数据写入
内存的速度非常快(想想Redis),但只有写入磁盘才算安全。

一个Region Server上有很多Region,如果有大量并发写入,这些数据最终落到磁盘上的不同位置上,光磁头
来来回回的寻道时间就是一个非常大的开销。剩下的就是实际写数据的时间了。

?§如何优化

复制或删除很多小文件时,非常耗时。如果把它们打包成一个压缩文件,再复制或删除,会快很多。

所以可以通过
减少写入的文件个数来优化。如果我们只写一个文件,且每次都在文件末尾追加,这应该最大限度的减少了磁头的移动。

这种方式在Hbase中叫做
预写日志,即Write Ahead LogWAL)。所有的写入操作只要把数据追加到这个日志文件中就立即返回。

一个Region Server服务器只有
一个这样的WAL文件,被服务器上的所有Region以及它里面的所有Store共享

预写日志的数据格式并不适合进行最终的存储,所以在Store里面还有一个
MemStore这样的数据结构驻留在内存里,会收集所有写入的数据,且按row key已排序



当某些条件被满足时,MemStore中的数据会被flush到磁盘上进行持久化,最终这些数据以StoreFile的形式存储到HDFS中。



PS:本文中部分图片来自于网络,如有侵权请告知。



(完)


编程新说


用独特的视角说技术

转载于:https://www.cnblogs.com/lixinjie/p/talk-about-hbase-architecture-in-a-funny-way.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 网络协议是计算机网络中进行数据传输和通信的规则和约定。PDF(Portable Document Format)是一种由Adobe开发的文件格式,用于以可靠的方式呈现和交换电子文档。 在谈论网络协议的PDF下载时,我们可以探讨以下趣闻: 首先,网络协议的PDF下载可以帮助我们更好地理解和学习网络协议。网络协议本身是一种抽象的概念,有时候很难通过文字或图片来完全理解。但是,通过以PDF格式提供的文档,我们可以更直观地看到网络协议的结构、流程和细节,使得学习变得更加容易和有趣。 其次,网络协议的PDF下载还能帮助我们及时了解和跟进最新的协议标准。网络协议是一门不断发展的学科,新的协议版本和标准经常被提出和更新。通过及时下载最新的协议文档,我们可以了解最新的协议规范和改进,从而更好地应用它们于实际网络环境中。 此外,网络协议的PDF下载也给了我们方便地和他人共享学习资源的机会。通过将网络协议的文档以PDF格式发布在互联网上,任何人都能够自由下载和阅读,促进了知识的传播和共享。在学术和研究领域,这种方式也为学者们提供了方便的途径来分享最新的网络协议研究成果。 总之,网络协议的PDF下载不仅能够促进我们更好地理解和学习网络协议,还能帮助我们及时了解最新的协议标准,并且方便地与他人共享学习资源。无论是对于专业人员还是对于普通用户,网络协议的PDF下载都具有重要的意义和趣味性。 ### 回答2: 网络协议是计算机网络中的基础,它定义了数据在网络中传输的规则和方式。网络协议可以确保数据的可靠传输,有效地管理网络资源,并实现各种网络应用功能。 趣谈网络协议是一本介绍网络协议的有趣读物,可以以轻松、幽默的方式解释复杂的网络协议概念和原理。这本书通常以PDF格式提供下载,方便读者在任何设备上阅读。 下载这本书的PDF版本,可以享受以下好处: 首先,PDF格式具有跨平台和跨设备的特点。不论您使用的是电脑、平板还是手机,只要安装了合适的PDF阅读器软件,就可以轻松打开并阅读这本书。 其次,下载PDF可以实现离线阅读。无论您身处何地,只要下载好了PDF文件,即便没有网络连接,也可以随时随地阅读网络协议的趣谈故事。 此外,PDF格式使得阅读更加方便。您可以在PDF阅读器中进行文字搜索、加注释、划重点,甚至可以调整字号的大小,以适应不同的阅读环境。 最后,通过下载PDF,您还可以将这本书保存到自己的电脑或移动设备上,以备日后参考。您可以在需要的时候,随时翻阅这本书,方便复习和查找相关内容。 总之,趣谈网络协议PDF的下载为我们提供了方便、快捷、随时随地的阅读体验。无论是想了解网络协议,还是希望在计算机网络领域深入学习,这本书都会是一本有趣而又实用的读物。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值