hbase HexStringSplit预分区，spark通过bulkload入数据

最新推荐文章于 2024-08-09 00:58:13 发布

枫叶的落寞

最新推荐文章于 2024-08-09 00:58:13 发布

阅读量3.4k

点赞数

分类专栏： spark hbase

本文链接：https://blog.csdn.net/u013220482/article/details/85292544

版权

spark 同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

hbase

7 篇文章 0 订阅

订阅专栏

hbase建表语句

create 'test',{NAME=>'CF_1',COMPRESSION=>'SNAPPY'},{NUMREGIONS => 30, SPLITALGO => 'HexStringSplit'}

bulk load 数据到上面建的表

1、自定义spark的partitioner函数，使得rdd的分区和hbase hfile要求的region分区一致

class MyPartitioner(partitions: Int) extends Partitioner {
  override def numPartitions: Int = partitions

  //计算region的split键值，总数为partitions-1个
  val splits = new HexStringSplit().split(partitions).map(s => Bytes.toString(s))

  //根据rowkey前缀，计算该条记录输入哪一个region范围内
  def getPartitionNum(splits: Array[String], key: Any): Int = {
    var i = 0
    var foundIt = false
    while (i < splits.length && !foundIt) {
      if (key.asInstanceOf[(String, String)]._1.substring(0, 8) < splits(i)) {
        foundIt = true
      }
      i = i + 1
    }
    i
  }

  override def getPartition(key: Any): Int = key match {
    case null => 0
    case _ => getPartitionNum(splits, key)
  }
}

对spark产生的rdd进行重新分区

val saltedRDD = result.repartitionAndSortWithinPartitions(new MyPartitioner(partition))
    //构造hfile
    val rdd = saltedRDD.map(r => {
      val rowkey = r._1._1
      val cq = r._1._2
      val value = r._2
      val kv: KeyValue = new KeyValue(Bytes.toBytes(rowkey), "CF_1".getBytes(), cq.getBytes(), value.getBytes())
      (new ImmutableBytesWritable(Bytes.add(Bytes.toBytes(rowkey), Bytes.toBytes(r._1._2))), kv)
    })

ps:其他的bulkload hfile代码就不上传了

枫叶的落寞

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
hbase HexStringSplit预分区，spark通过bulkload入数据

hbase建表语句create 'test',{NAME=&amp;gt;'CF_1',COMPRESSION=&amp;gt;'SNAPPY'},{NUMREGIONS =&amp;gt; 30, SPLITALGO =&amp;gt; 'HexStringSplit'}bulk load 数据到上面建的表1、自定义spark的partitioner函数，使得rdd的分区和hbase hfile要求的region分区...
复制链接

扫一扫

专栏目录