Spark整合HBase(自定义HBase DataSource)

本文介绍了如何通过Spark的DataSource API实现自定义HBase数据源,以提供更优雅的操作接口。内容包括如何写入HBase,如指定rowkey字段、表名、Zookeeper地址以及预分区等配置,并探讨了数据量大时启用BulkLoad的优势。同时,文章讨论了读取HBase的方法,强调了自定义schema映射以提高效率的重要性。
摘要由CSDN通过智能技术生成

背景

Spark支持多种数据源,但是Spark对HBase 的读写都没有相对优雅的api,但spark和HBase整合的场景又比较多,故通过spark的DataSource API自己实现了一套比较方便操作HBase的API。

写 HBase

写HBase会根据Dataframe的schema写入对应数据类型的数据到Hbase,先上使用示例:

import spark.implicits._
import org.apache.hack.spark._
val df = spark.createDataset(Seq(("ufo",  "play"), ("yy",  ""))).toDF("name", "like")
// 方式一
val options = Map(
            "rowkey.filed" -> "name",
            "startKey" 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值