记一次 基于 Hadpoop 3.3.0 完全分布式集群 Spark 3.0.0 集成 Hive 3.1.2

18 篇文章 2 订阅
3 篇文章 0 订阅

一、Spark 3.0.0 、Hive 3.1.2 分布式集群搭建

1、Hadoop 3.x HDFS基础环境
https://blog.csdn.net/llwy1428/article/details/111144524
2、zookeeper 3.6.2 集群搭建
https://blog.csdn.net/llwy1428/article/details/111772027
3、Hadoop 3.x 部署 YARN 集群
https://blog.csdn.net/llwy1428/article/details/111464707
4、Hadoop 3.x 集群 YARN 启动 timelineserver(ApplicationHistoryServer) 服务
https://blog.csdn.net/llwy1428/article/details/112417384
5、Hive 3.1.2 分布式集群搭建
https://blog.csdn.net/llwy1428/article/details/111568662
6、Spark 3.0.0 分布式集群搭建
https://blog.csdn.net/llwy1428/article/details/111569392

二、Spark 3.0.0 集成 Hive 3.1.2

1、复制 hive 的配置文件至 spark 的配置文件目录

[root@master ~]# cp /usr/bigdata/apache-hive-3.1.2-bin/conf/hive-site.xml /usr/bigdata/spark-3.0.0-bin-hadoop3.2/conf/

2、进入 spark 的配置文件目录

[root@master ~]# cd /usr/bigdata/spark-3.0.0-bin-hadoop3.2/conf

3、复制、修改默认的配置文件

[root@master conf]# cp spark-defaults.conf.template spark.conf

4、在 HDFS 的任一客户端节点执行,创建 spark 存放日志的目录

[root@master ~]# hdfs dfs -mkdir -p /user/spark/eventLog

5、编辑 spark 的配置文件 spark.conf

[root@master conf]# vim spark.conf

6、编辑内容

spark.master                     spark://master:7077
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://master:9820/user/spark/eventLog

7、把搭建 Hive 集群的时候下载的 musql 的 java 驱动包,复制到 spark 的 jars 目录下

[root@master ~]# cp /usr/bigdata/apache-hive-3.1.2-bin/lib/mysql-connector-java.jar /usr/bigdata/spark-3.0.0-bin-hadoop3.2/jars/

8、启动 HDFS 服务(非 HA 高可用集群)

[root@master ~]# /usr/bigdata/hadoop-3.3.0/sbin/start-dfs.sh

9、启动 Zookeeper

[root@slave1 ~]# /usr/bigdata/apache-zookeeper-3.6.2-bin/bin/zkServer.sh start
[root@slave2 ~]# /usr/bigdata/apache-zookeeper-3.6.2-bin/bin/zkServer.sh start
[root@slave3 ~]# /usr/bigdata/apache-zookeeper-3.6.2-bin/bin/zkServer.sh start

10、启动 YARN 相关服务

[root@master ~]# /usr/bigdata/hadoop-3.3.0/sbin/start-yarn.sh

11、启动 hiveserver2 服务

[root@master ~]# nohup hive --service hiveserver2  &

12、启动 Spark 服务

[root@master ~]# /usr/bigdata/spark-3.0.0-bin-hadoop3.2/sbin/start-all.sh

13、控制台启动 spark-sql

[root@master ~]# /usr/bigdata/spark-3.0.0-bin-hadoop3.2/bin/spark-sql

启动效果如下
在这里插入图片描述

三、执行 spark-sql

1、通过 spark-sql 查看 Hive 中的数据库,以及执行查询数据的操作
在这里插入图片描述
2、选择数据库

spark-sql (default)> use hive_test;

3、查看该数据库中的所有表

spark-sql (default)> show tables;

4、查询表数据

spark-sql (default)> select * from table_test;

执行效果如下
在这里插入图片描述
5、执行统计 sql

spark-sql (default)> select count(1) from table_test where age > 20;

效果如下
在这里插入图片描述
退出 spqrk-sql

spark-sql (default)> exit;

基于 Hadpoop 3.3.0 完全分布式集群 Spark 3.0.0 集成 Hive 3.1.2 并执行 spark-sql ,操作完毕,希望能够对您有所帮助!

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值