配置spark on hive,后续可以使用DataGrip连接spark编写sparkSQL

版本

hive 3.1.2

spark 3.3.3

配置

首先,自己配置好spark on hive,很简单,网上配置很多。

把MySQLjar包放进spark的jars。

测试

启动spark-sql(这个如果我没记错的话,是在spark的bin目录里)
创建表,插入字段
启动hive(bin/hive),查询是否有spark-sql创建的表。
有的话,恭喜你,spark on hive 已经配置好了。
 

后面这是使用客户端工具DataGrip连接到Spark,写sql 的配置

DG不能直接连接spark,如果想要连接的话,要使用spark的Spark ThriftServer 去代替hiveserver2的服务。

1、去etc/hosts,下新增,192.168.177.101 node01.itcast.cn (也可以不新增,到时候改下启动命令就行)。(在我配置完后我也觉得这步挺多余,忽略掉吧,如果后面不行你再回来配置)

2、启动Spark ThriftServer

在$SPARK_HOME/sbin

//这个是配置了1、的启动方式

cd /opt/****/spark-local/sbin
./start-thriftserver.sh \
--hiveconf hive.server2.thrift.port=10000 \
--hiveconf hive.server2.thrift.bind.host=node01.itcast.cn \
--hiveconf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse \
--master local[*]

//正常启动,没问题

cd /opt/****/spark-local/sbin
./start-thriftserver.sh \
--hiveconf hive.server2.thrift.port=10000 \
--hiveconf hive.server2.thrift.bind.host=node01 \
--hiveconf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse \
--master local[*]

想要更确定启动没,可以去查看spark/logs下面的日志

23/12/19 16:01:53 INFO AbstractService: Service:HiveServer2 is started.
23/12/19 16:01:53 INFO HiveThriftServer2: HiveThriftServer2 started

表示启动成功。

3、在$SPARK_HOME/bin 启动服务。

./beeline

!connect jdbc:hive2://192.168.177.101:10000
输入用户名
输入密码

稍等片刻,
出现 Connected to: Spark SQL (version 3.3.3) 表示使用的spark
出现 Connected to: Apache Hive (version 3.1.2) 表示启动的还是hive,计算依旧使用的是MR,很慢,配置失败 与预期不符,建议去查看日志信息。

使用


粗糙的使用流程,也给大家码下来了。

启动zookeeper

启动hadoop

启动hive --service metastore服务

启动sparkserver2服务

DG连接spark

附:spark 的HistoryServer服务 (有需要就起)

  • 20
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值