Spark整合HBase（自定义HBase DataSource）

最新推荐文章于 2022-05-06 09:23:40 发布

大写的UFO

最新推荐文章于 2022-05-06 09:23:40 发布

阅读量2.2k

点赞数 1

分类专栏： spark 文章标签： spark hbase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/UUfFO/article/details/79243644

版权

本文介绍了如何通过Spark的DataSource API实现自定义HBase数据源，以提供更优雅的操作接口。内容包括如何写入HBase，如指定rowkey字段、表名、Zookeeper地址以及预分区等配置，并探讨了数据量大时启用BulkLoad的优势。同时，文章讨论了读取HBase的方法，强调了自定义schema映射以提高效率的重要性。

摘要由CSDN通过智能技术生成

背景

Spark支持多种数据源，但是Spark对HBase 的读写都没有相对优雅的api，但spark和HBase整合的场景又比较多，故通过spark的DataSource API自己实现了一套比较方便操作HBase的API。

写 HBase

写HBase会根据Dataframe的schema写入对应数据类型的数据到Hbase，先上使用示例：

import spark.implicits._
import org.apache.hack.spark._
val df = spark.createDataset(Seq(("ufo",  "play"), ("yy",  ""))).toDF("name", "like")
// 方式一
val options = Map(
            "rowkey.filed" -> "name",
            "startKey"

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大写的UFO CSDN认证博客专家 CSDN认证企业博客

码龄10年

35: 原创

24万+: 周排名

111万+: 总排名

7万+: 访问

: 等级

1176: 积分

39: 粉丝

25: 获赞

21: 评论

69: 收藏

私信

关注

热门文章

分类专栏

最新评论

基于spark sql引擎的即席查询服务
春_: 请问，可以本地启动吗？我尝试本地启动engine启动总是报错要设置master，尝试setConfig也还是会出现一样的错误
Spark 实现MySQL update操作
huihuixia123: 您好，问一下对应的是spark 的哪个jar呢
Elasticsearch5.6搭建及拼音中文混合搜索实现
qq_18403089: 你这写的好简单
[Spark SQL] 主要执行流程
风流少年: 666
[spark] 数据本地化及延迟调度
高亮: 您好大神，看了您的延迟调度策略后，有一个问题久久想不明白，所以想向您请教：在getAllowedLocalityLevel方法中，当PROCESS_LOCAL本地性没有任务可以执行时，代码块里面有这样一句话：lastLaunchTime = curTime 那么当NODE_LOCAL有任务执行时，因为lastLaunchTime = curTime 所以curTime - lastLaunchTime 一定小于等待时间(等于0)所以会返回NODE_LOCAL本地性，更大的问题是，哪怕是NODE_LOCAL都执行完了，只要走这个延迟调度策略方法，case TaskLocality.PROCESS_LOCAL => moreTasksToRunIn(pendingTasksForExecutor) 一定是false还是会走lastLaunchTime = curTime代码块，最终一直返回的本地性都是NODE_LOCAL，所以这里一直想不明白，想请教高人，如能解答万分感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。