Spark SQL与Hive集成

最新推荐文章于 2024-04-13 09:21:41 发布

Panda°

最新推荐文章于 2024-04-13 09:21:41 发布

阅读量608

点赞数 3

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_52137951/article/details/116379194

版权

spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

前言

对于本次内容的一些基本命令如果不熟悉的可以自行不足，只有在不断探索，学习才能有所收获。

一、Spark SQL与Hive集成(spark-shell)

1.第一步

把hive的配置文件hive-site.xml拷贝到spark的conf的目录下，然后在spark目录下的hive-site.xml中添加如下配置：

<property>
	<name>hive.metastore.uris</name>
	<value>thrift://panda-pro01.xiong.com:9083</value>
</property>

2.第二步

把hive目录下lib中MySQL的jar包拷贝spark的jars目录下

cp mysql-connector-java-5.1.46-bin.jar /opt/Hadoop/spark/jars
scp mysql-connector-java-5.1.46-bin.jar xiong@10.34.102.251:/opt/modules/spark-2.2.0-bin-custom-spark/jars
注：当hive和spark不在同一台机器时，可以scp发过去。

3.第三步

检查spark-env.sh文件中的hadoop的配置项

HADOOP_CONF_DIR=/opt/modules/hadoop-2.5.0/etc/hadoop

代码如下（示例）：

4.启动服务

1.启动hadoop各个结点和mysql

sudo service mysql start  启动mysql
sudo service mysql status 查看状态

2.启动hive中的metastore

bin/hive --service metastore

之后再开一个窗口

bin/hive

5.测试

1.准备数据

0001 hadoop
0002 yarn
0003 hbase
0004 hive
0005 spark
0006 mysql
0007 flume

2.创建数据库

create database kfk;

3.创建表

use kfk；

create table if not exists test(userid string,username string) 
row format delimited fields terminated by ' ' stored as textfile;

4.加载数据

load data local inpath "/opt/datas/kfk.txt" into table test;

5.通过spark-shell查看数据

spark.sql("select * from kfk.test").show

在这里插入图片描述

6.将数据写入MySQL

1.创建数据库

mysql -u root -p    进入mysql

create table test;

2.将spark sql分析hive中的数据写入到mysql中

import java.util.Properties 导包

val pro = new Properties()
pro.setProperty("driver","com.mysql.jdbc.Driver")
val df = spark.sql("select * from kfk.test")
df.write.jdbc("jdbc:mysql://panda-pro01.xiong.com/test?user=root&password=123456","f_spark",pro)

进入mysql

show tables;    查看所有表
select *from table;

在这里插入图片描述

二.Spark SQL 与Hive集成(spark-sql)

操作步奏和前面一样的，只需启动spark-sql看看里面表中数据

bin/spark-sql

只要上面步奏都操作，在spark-sql中会看到数据

use kfk;
show tables;
select *from test

在这里插入图片描述

三、Spark SQL之ThirftServer和beeline使用

1.ThirftServer和spark-shell/spark sql的区别：

1.spark-shell，spark-sql都是一个spark application
2.thriftserver，不管你启动多少个客户端(beeline/code)，只要是连在一个thriftserver上，永远都是一个spark application，解决了一个数据共享的问题，多个客户端可以共享数据。
3.用thriftserver，在UI中能直接看到sql的执行计划，方便优化

基于Spark的thirftserver来访问hive中的数据，可以让多个客户端连接到同一个服务器端，跑的是同一个application
Thirftserver作为服务端，beeline作为客户端来访问服务端，支持多个客户端同时访问，有助于多个客户端之间数据的共享

2.启动服务

1.启动metastore

bin/hive --service metastore

2.启动thriftserver

sbin/start-thriftserver.sh

在这里插入图片描述

3.通过beeline链接

bin/beeline

然后输入

!connect jdbc:hive2://panda-pro02.xiong.com:10000

在这里插入图片描述

4.使用SQL命令来来访问hive中的数据表

show databases;

在这里插入图片描述

use kfk;
show tables;
select *from test;

在这里插入图片描述
可以使用多个客户端beeline连接，进行并行操作，但是只有一个application，每个beeline只作为一个job，这样也显示出了它的优点，而spark-shell/sql启动两个会是两个application，这样很浪费资源。

总结

Spark SQL 与Hive集成就到了这里了，作者水平有限，如有不当之处还请见谅。

Panda°

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark SQL与Hive集成

文章目录前言一、Spark SQL与Hive集成(spark-shell)1.第一步2.第二步3.第三步4.启动服务1.启动hadoop各个结点和mysql2.启动hive中的metastore5.测试1.准备数据2.创建数据库3.创建表4.加载数据5.通过spark-shell查看数据6.将数据写入MySQL1.创建数据库2.将spark sql分析hive中的数据写入到mysql中二.Spark SQL 与Hive集成(spark-sql)三、Spark SQL之ThirftServer和beeline
复制链接

扫一扫