sparksql 操作hive_使用SparkSQL读取Hive上的数据.PDF

最新推荐文章于 2024-06-01 08:53:20 发布

weixin_39852688

最新推荐文章于 2024-06-01 08:53:20 发布

阅读量292

点赞数

文章标签： sparksql 操作hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39852688/article/details/111910207

版权

本文介绍了如何通过Spark SQL读取和操作Hive上的数据。首先，由于预编译的Spark assembly包不支持Hive，需要重新编译Spark并添加-Phive选项。然后，将Hive的hive-site.xml配置文件复制到Spark的conf目录，以便连接到Hive的数据仓库。如果Hive元数据在Mysql中，还需提供相应的驱动。启动spark-shell时指定--jars参数加载Mysql驱动。最后，使用sqlContext对象执行HQL创建外部表，并读取Hive数据。

摘要由CSDN通过智能技术生成

使用SparkSQL读取Hive上的数据.PDF

使用Spark SQL读取Hive上的数据

Spark大数据博客 -

使用Spark SQL读取Hive上的数据

Spark SQL主要目的是使得用户可以在Spark上使用SQL，其数据源既可以是RDD，也可以是

外部的数据源(比如Parquet、Hive、Json等)。Spark SQL的其中一个分支就是Spark on Hive，

也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物

理执行计划从MR作业替换成了Spark作业。本文就是来介绍如何通过Spark

SQL来读取现有Hive中的数据。

不过，预先编译好的Spark assembly包是不支持Hive的，如果你需要在Spark中使用Hive，

必须重新编译，加上-Phive选项既可，具体如下：

[iteblog@ spark]$ ./make-

distribution.sh --tgz -Phadoop-2.2 -Pyarn -DskipTests -Dhadoop.version=2.2.0 -Phive

编译完成之后，会在SPARK_HOME的lib目录下多产生三个jar包，分别是datanucleus-api-jdo

-3.2.6.jar、datanucleus-core-3.2.10.jar、datanucleus-

rdbms-3.2.9.jar，这些包都是Hive所需要的。下面就开始介绍步骤。

一、环境准备

为了让Spark能够连接到Hive的原有数据仓库，我们需要将Hive中的hive-site.xml文件拷贝到

Spark的conf目录下，这样就可以通过这个配置文件找到Hive的元数据以及数据存放。

如果Hive的元数据存放在Mysql中，我们还需要准备好Mysql相关驱动，比如：mysql-

connector-java-5.1.22-bin.jar。

二、启动spark-shell

环境准备好之后，为了方便起见，我们使用spark-shell来进行说明如何通过Spark

SQL读取Hive中的数据。我们可以通过下面的命令来启动spark-shell：

[iteblog@ spark]$ bin/spark-shell --master yarn-client --jars lib/mysql-

connector-java-5.1.22-bin.jar

15/08/27 18:21:25 INFO repl.SparkILoop: Created spark context..

Spark context available as sc.

15/08/27 18:21:30 INFO repl.SparkILoop: Created sql context (with Hive support)..

SQL context available as sqlContext.

1 / 8

使用Spark SQL读取Hive上的数据

Spark大数据博客 -

启动spark-shell的时候会先向ResourceManager申请资源，而且还会初始化SparkContext和

SQLContext实例。sqlContext对象其实是HiveContext的实例，sqlContext是进入Spark

SQL的切入点。接下来我们来读取Hive中的数据。

scala> sqlContext.sql("CREATE EXTERNAL TABLE IF NOT EXISTS ewaplog (key STRING, value ST

RING)

STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' OUTPUTFOR

MAT

'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION '/user/iteblog/ewa

plog' ")

res0: org.apache.spark.sql.DataFrame = [resu

weixin_39852688

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sparksql 操作hive_使用SparkSQL读取Hive上的数据.PDF

使用SparkSQL读取Hive上的数据.PDF使用Spark SQL读取Hive上的数据Spark大数据博客 -使用Spark SQL读取Hive上的数据Spark SQL主要目的是使得用户可以在Spark上使用SQL，其数据源既可以是RDD，也可以是外部的数据源(比如Parquet、Hive、Json等)。Spark SQL的其中一个分支就是Spark on Hive，也就是使用Hive中HQ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。