Hbase总结

最新推荐文章于 2022-11-30 23:39:18 发布

congzi1984

最新推荐文章于 2022-11-30 23:39:18 发布

阅读量239

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/congzi1984/article/details/104343383

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

简要

1、Mysql里面的高表宽表在Hbase里面可以用横向切分和纵向切分。横向切分是放在多个Region里面的，纵向切分是放在多个文件夹里面的，Region我们称之为切片。

2、列名、表名等元数据信息放在HMaster里面，数据放在RegionServer里面。分区按照RowKey的规则来进行分区。逻辑上分为RowKey、Column Family、Column Qualifier、TimeStamp、Type、Value

3、为了追求效率，删除和修改时会新增一条数据，查询的时候会得到时间戳最大的数据。数据最终还是存储在HDFS上的

基本架构

1、HMaster：存储表空间、表、列名等元数据，若HMaster挂掉了，数据的增删改查还可以做，但是表级别的操作是不能操作的。

2、RegionServer：一个RegionServer节点上有多个Region，一个Region有多个Store File，格式是HFile，一个StoreFile存储的是一个列族的数据。

3、Zookeeper：维护HMaster信息，高可用时，HMaster会注册到Zookeeper上。作为与客户端操作的连接，DML主要跟ZK交互，

节点服务器间的时间，默认不能相差超过30000MS

写数据

1、客户端连上ZK，向ZK获取RegionServer信息（在ZK的 /hbase/meta-region-server），缓存到Client本地

2、根据返回的RegionServer，连上具体的RegionServer。

3、写到wal日志，wal日志写到内存（实际上代码是先构建wal日志，这个时候没有真正写到磁盘，构建完以后写到内存，然后再同步到wal日志，若发生异常，回滚内存），返回Client

4、数据先放到内存，再刷到磁盘，刷一次产生一个文件。

所以文件会有一个合并成大文件的过程，合并有小合并和大合并，默认大于三个小文件时会触发一次大合并。

小合并不会删除数据，大合并会删除数据。默认7天大合并一次，会使用大量资源。最好手动合并。

大文件大到配置的阈值（默认10G）后，会将文件按照RowKey切分，

不建议使用多个列族，如果有些列族数据少，会产生大量小文件。

flush 'stu'刷磁盘；compact合并文件

读数据

1、读取磁盘放到BlockCache，同时读取内存，将两者数据合并后返回客户端。

get 'stu', '1001', {COLUMN=>'......', VERSIONS=>'......', ......}

2、数据倾斜

大量的请求到一个节点上，需要预分区来解决。

RowKey设计

根据散列性、唯一性、长度三个原则设计。主要是根据业务需求来设计。

比如如果RowKey是递增的，可以用SPLITS =>{1,2,3,4,5,6,7,8,9}

比如手机号，可以用手机号除以分区数取模

预分区

每个区维护着StartRow与EndRow，数据会根据预分区规则存入对应的分区。

手动预分区：create 'stu', 'info', SPLITS => {'1000', '2000', '3000', '4000'}

按位比较，12345就放到'1000'这个区

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。