背景
Spark支持多种数据源,但是Spark对HBase 的读写都没有相对优雅的api,但spark和HBase整合的场景又比较多,故通过spark的DataSource API自己实现了一套比较方便操作HBase的API。
写 HBase
写HBase会根据Dataframe的schema写入对应数据类型的数据到Hbase,先上使用示例:
import spark.implicits._
import org.apache.hack.spark._
val df = spark.createDataset(Seq(("ufo", "play"), ("yy", ""))).toDF("name", "like")
// 方式一
val options = Map(
"rowkey.filed" -> "name",
"startKey"

本文介绍了如何通过Spark的DataSource API实现自定义HBase数据源,以提供更优雅的操作接口。内容包括如何写入HBase,如指定rowkey字段、表名、Zookeeper地址以及预分区等配置,并探讨了数据量大时启用BulkLoad的优势。同时,文章讨论了读取HBase的方法,强调了自定义schema映射以提高效率的重要性。
最低0.47元/天 解锁文章
168

被折叠的 条评论
为什么被折叠?



