pyspark案例系列1- 运行spark-sql的几种方式

最新推荐文章于 2024-06-05 16:41:43 发布

只是甲

最新推荐文章于 2024-06-05 16:41:43 发布

阅读量6.4k

点赞数 1

分类专栏：大数据和数据仓库 # Spark 文章标签： spark hive 大数据

本文链接：https://blog.csdn.net/u010520724/article/details/117069030

版权

大数据和数据仓库同时被 2 个专栏收录

290 篇文章 107 订阅

订阅专栏

Spark

33 篇文章 26 订阅

订阅专栏

文章目录

一.环境介绍
二.运行spark-sql的几种方式
参考:

一.环境介绍

我本地的环境的CDH 6.3.1的环境，自己已经将spark软件安装成功了。
然后有一个节点因为不小心升级了spark的版本，导致与集群失去了联系，然后在该节点下重新安装了spark。

二.运行spark-sql的几种方式

2.1 spark-shell的方式

可以通过spark-shell的方式来登陆spark，然后用spark.sql模块来执行sql。

命令:

spark-shell --master local[2] \
spark.sql("use test").show(false)
spark.sql("select * from emp").show(false)

测试记录:

可以看到spark 的history server上有spark-shell的记录。

2.2 beeline的方式

通过beeline的方式，然后jdbc连接hive。

命令:

beeline
!connect jdbc:hive2://10.31.1.123:10000
username: spark
password : spark

测试记录:

测试过后，spark 的history server及yarn上都没有该脚本的运行记录。

2.3 spark-sql的方式

spark-sql常用的查询工具，速度比较hivesql要快。但是cdh6并没有spark-sql。

我们独立安装的一个节点的spark
代码:

cd /etc/spark/conf
cp /etc/hive/conf/hive-site.xml ./

sudo -u hdfs hadoop fs -chmod -R 777 /tmp/hive
cd /tmp
rm -rf hive

-- 此时spark登陆的居然是一个全新的库
spark-sql

测试记录:

此时spark登陆的居然是一个全新的库
这个问题后面再看,实在不能登陆spark-sql的话，就用spark shell进行代替吧。

参考:

1.https://www.cnblogs.com/yaowentao/p/13048664.html
2.https://blog.csdn.net/weixin_33683108/article/details/114489527
3.https://blog.csdn.net/qq_36835255/article/details/90770620

只是甲

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
pyspark案例系列1- 运行spark-sql的几种方式

文章目录一.环境介绍二.运行spark-sql的几种方式2.1 spark-shell的方式2.2 beeline的方式2.3 spark-sql的方式参考:一.环境介绍我本地的环境的CDH 6.3.1的环境，自己已经将spark软件安装成功了。然后有一个节点因为不小心升级了spark的版本，导致与集群失去了联系，然后在该节点下重新安装了spark。二.运行spark-sql的几种方式2.1 spark-shell的方式可以通过spark-shell的方式来登陆spark，然后用spark.sq
复制链接

扫一扫

专栏目录