Spark处理HBase热点region重构附scala代码
最近在做新闻信息流推荐业务,采取标签倒排索引存储在HBase的方案。大家都知道HBase会有热点Region的问题,会给单台服务器造成很大的压力,大大降低了HBase的相应性能。为此我们需要把在一个Region中访问量都比较大的标签切分,让它们分布在不同的Region中,以缓解压力。下面来介绍一下切分方案,另附有代码。 在HBase中以新闻被打的标签为rowkey存...
原创
2018-08-27 19:38:52 ·
308 阅读 ·
0 评论