使用SparkSQL读取Hbase表

最新推荐文章于 2024-05-10 20:03:52 发布

a_BigData

最新推荐文章于 2024-05-10 20:03:52 发布

阅读量6.6k

点赞数

本文链接：https://blog.csdn.net/qazwsx1225a/article/details/78722048

版权

HBase-Spark Connector(在HBase-Spark 模块中）利用了在Spark-1.2.0中引入的DataSource API(SPARK-3247)，在简单的HBase KV存储和复杂的关系型SQL查询之间架起了桥梁，使得用户可以在HBase上使用Spark执行复杂的数据分析工作。HBase Dataframe是一个标准的Spark Dataframe，能够与任何其他的数据源进行交互，比如Hive,Orc，Parquet,JSON等。HBase-Spark　Connector应用了关键技术，如分区剪枝（partition pruning)，列剪枝(column pruning)，谓詞下推(predicate pushdown)和数据局部性（data locality）。

要使用HBase-Spark Connector，用户需要定义在HBase和Spark表之间的映射关系的schema目录，准备数据，并且填充到HBase表中，然后加载HBase Dataframe。之后，用户可以使用SQL查询做集成查询和访问记录HBase的表。以下描述了这个的基本步骤：

１、定义目录（Define catalog）
２、保存DataFrame
３、加载DataFrame

４、SQL 查询

Define catalog

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

a_BigData

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
使用SparkSQL读取Hbase表

HBase-Spark Connector(在HBase-Spark 模块中）利用了在Spark-1.2.0中引入的DataSource API(SPARK-3247)，在简单的HBase KV存储和复杂的关系型SQL查询之间架起了桥梁，使得用户可以在HBase上使用Spark执行复杂的数据分析工作。HBase Dataframe是一个标准的Spark Dataframe，能够与任何其他的数据源进
复制链接

扫一扫