hbase系列-Hbase热点问题、数据倾斜和rowkey的散列设计

最新推荐文章于 2024-04-10 13:59:19 发布

boat824109722

最新推荐文章于 2024-04-10 13:59:19 发布

阅读量1.1w

点赞数 3

分类专栏：大数据 hadoop hbase 文章标签：大数据 hbase hadoop

本文链接：https://blog.csdn.net/weixin_41279060/article/details/78855679

版权

本文探讨了HBase的热点问题和数据倾斜，它们源于HBase的行排序和存储方式。解决方案包括预分区和Rowkey的散列设计，以确保数据在集群中的均衡分布。预分区有助于初始数据的均匀分布，而Rowkey设计应考虑哈希和时间戳反转等策略以优化存储和检索效率。

摘要由CSDN通过智能技术生成

 
  1、分布式与并行处理 
 
  分布式系统 
 
  通常，我们说分布式系统的时候，我们都会想到Dubbo框架和SpringCloud框架。这两个框架现在应该是国内用的比较多的两个分布式框架了，特点都是很容易把服务部署在多台机器组成一个高可用的服务集群来应对高并发。所以，我们通常认为分布式系统就是多台机器组成一个集群对外提供服务，每个请求也会被分配到集群中的一台或者多台机子上完成，而用户是感觉不同整个系统封装的细节。 
 
  多线程和并行处理 
 
    我们都知道多线程是怎样的一个概念，它就是一个并行处理的例子，它是在一台计算机并行的。但是，在我们的认识范畴中，我们所知的并行是应该同时在运作的，但是，多线程的概念是，多个线程在抢占资源，抢到了资源的线程会运作，其它的线程在等待，所以并不是真正意义上的并行，只是因为计算机的运行速度比较快，所以我们可以认为它是并行处理的。 
 
  Hadoop的HDFS文件系统，Hbase等分布式系统就是并行处理的，多台机器同时运行，同时存储和读取数据，最后把结果返回给用户。 
 
  2、什么是热点和数据倾斜 
 
  热点发生在大量的client直接访问集群的一个或极少数个节点（访问可能是读，写或者其他操作）。 
  大量访问会使热点region所在的单个机器超出自身承受能力，引起性能下降甚至region不可用，这也会影响同一个RegionServer上的其他region，由于主机无法服务其他region的请求，造成资源浪费。设计良好的数据访问模式以使集群被充分，均衡的利用。 
    
  数据倾斜： 
  Hbase可以被划分为多个Region，但是默认创建时只有一个Region分布在集群的一个节点上，数据一开始时都集中在这个Region，也就是集中在这一个节点上，就算region存储达到临界值时被划分，数据也是存储在少数节点上。这就是数据倾斜。

最低0.47元/天解锁文章

boat824109722

关注

3
点赞
踩
29

收藏

觉得还不错? 一键收藏
4
评论
hbase系列-Hbase热点问题、数据倾斜和rowkey的散列设计

1、分布式与并行处理分布式系统通常，我们说分布式系统的时候，我们都会想到Dubbo框架和SpringCloud框架。这两个框架现在应该是国内用的比较多的两个分布式框架了，特点都是很容易把服务部署在多台机器组成一个高可用的服务集群来应对高并发。所以，我们通常认为分布式系统就是多台机器组成一个集群对外提供服务，每个请求也会被分配到集群中的一台或者多台机子上完成，而用户是感觉不同整个系统封装
复制链接

扫一扫