hbase系列-Hbase热点问题、数据倾斜和rowkey的散列设计

本文探讨了HBase的热点问题和数据倾斜,它们源于HBase的行排序和存储方式。解决方案包括预分区和Rowkey的散列设计,以确保数据在集群中的均衡分布。预分区有助于初始数据的均匀分布,而Rowkey设计应考虑哈希和时间戳反转等策略以优化存储和检索效率。
摘要由CSDN通过智能技术生成
1、分布式与并行处理
分布式系统
通常,我们说分布式系统的时候,我们都会想到Dubbo框架和SpringCloud框架。这两个框架现在应该是国内用的比较多的两个分布式框架了,特点都是很容易把服务部署在多台机器组成一个高可用的服务集群来应对高并发。所以,我们通常认为分布式系统就是多台机器组成一个集群对外提供服务,每个请求也会被分配到集群中的一台或者多台机子上完成,而用户是感觉不同整个系统封装的细节。
多线程和并行处理
  我们都知道多线程是怎样的一个概念,它就是一个并行处理的例子,它是在一台计算机并行的。但是,在我们的认识范畴中,我们所知的并行是应该同时在运作的,但是,多线程的概念是,多个线程在抢占资源,抢到了资源的线程会运作,其它的线程在等待,所以并不是真正意义上的并行,只是因为计算机的运行速度比较快,所以我们可以认为它是并行处理的。
Hadoop的HDFS文件系统,Hbase等分布式系统就是并行处理的,多台机器同时运行,同时存储和读取数据,最后把结果返回给用户。

2、什么是热点和数据倾斜
热点发生在大量的client直接访问集群的一个或极少数个节点(访问可能是读,写或者其他操作)。 大量访问会使热点region所在的单个机器超出自身承受能力,引起性能下降甚至region不可用,这也会影响同一个RegionServer上的其他region,由于主机无法服务其他region的请求,造成资源浪费。设计良好的数据访问模式以使集群被充分,均衡的利用。
数据倾斜: Hbase可以被划分为多个Region,但是默认创建时只有一个Region分布在集群的一个节点上,数据一开始时都集中在这个Region,也就是集中在这一个节点上,就算region存储达到临界值时被划分,数据也是存储在少数节点上。这就是数据倾斜。

  • 3
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值