Spark读取Hbase内容

龙大.

于 2024-01-20 12:36:48 发布

阅读量427

点赞数 8

分类专栏： Spark Hbase 文章标签： spark hbase 大数据

本文链接：https://blog.csdn.net/u014745465/article/details/135713846

版权

Spark 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

Hbase

2 篇文章 0 订阅

订阅专栏

不啰嗦直接看代码

    //初始化Hbase的基本配置
    val hbaseConf = HBaseConfiguration.create()
    hbaseConf.set("hbase.zookeeper.quorum", "地址")
    
    val scan = new Scan();
    scan.addFamily(Bytes.toBytes("c"))//要读取的列簇
    scan.setTimeStamp(timeStamp)//指定一个要读取的版本（如果只是拿列修饰符对应最新，可以不写）
    scan.withStartRow(Bytes.toBytes(startRow))//要遍历的rowkey开始值（可以精确的也可以只是前缀），如果是全表可以不写
    scan.withStopRow(Bytes.toBytes(stopRow))//要遍历的rowkey结束值（可以精确的也可以只是前缀），如果是全表可以不写
   
    hbaseConf.set(TableInputFormat.SCAN, Base64.encodeBytes(ProtobufUtil.toScan(scan).toByteArray))
    hbaseConf.set(TableInputFormat.INPUT_TABLE, Hbase的表名)


      /**
       * 初始化spark
       */
    val sparkName = ”read_Hbase“
    val sparkConf = new SparkConf().setAppName(sparkName)
        .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
        .set("spark.kryoserializer.buffer.max.mb", "512")
    val sc = new SparkContext(sparkConf)

      /**获取hbase数据*/
    val dataRDD: RDD[(ImmutableBytesWritable, Result)] =sc.newAPIHadoopRDD(hbaseConf, classOf[TableInputFormat], classOf[ImmutableBytesWritable],classOf[Result])

上面代码要读取Hbase数据、先初始化Hbase相关信息，主要的还是Scan信息，制定了要读取什么数据，当然这里只是罗列了常用的还有其他的条件可以加入。然后再是初始化Spark上下文。最后就行调用Spark获取数据。

龙大.

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Spark读取Hbase内容

上面代码要读取Hbase数据、先初始化Hbase相关信息，主要的还是Scan信息，制定了要读取什么数据，当然这里只是罗列了常用的还有其他的条件可以加入。然后再是初始化Spark上下文。最后就行调用Spark获取数据。
复制链接

扫一扫