十一.SparkSQL之mysql和hive关联表操作

一.创建mysql数据

//创建库
create database spark;
use spark;
//创建表
CREATE TABLE DEPT(
DEPTNO int(2) PRIMARY KEY,
DNAME VARCHAR(14) ,
LOC VARCHAR(13) );
//添加数据
INSERT INTO DEPT VALUES(10,'ACCOUNTING','NEW YORK');
INSERT INTO DEPT VALUES(20,'RESEARCH','DALLAS');
INSERT INTO DEPT VALUES(30,'SALES','CHICAGO');
INSERT INTO DEPT VALUES(40,'OPERATIONS','BOSTON');

二.创建hive数据
首先启动spark-sql命令行:

./spark-sql --master --jars ~/software/mysql-connector-java-5.1.38.jar

使用默认的default库,创建表emp以及添加部分测试数据:

spark-sql> create table emp(
	      > empno string,
	       > ename string,
	       > job string,
	       > deptno int);

向里面添加数据同上mysql操作.

三.查看hive和mysql的DataFrame类型的数据

//查看hive数据源
spark.table("emp").show

在这里插入图片描述

//查看mysql数据源
val mysqlDF = spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306").option("dbtable", "spark.DEPT").option("user", "root").option("password", "123456").option("driver","com.mysql.jdbc.Driver").load()

在这里插入图片描述

四.关联hive和mysql数据

关联表,使用DataFrame中的join方法,结合两个数据源:

val resultDF = hiveDF.join(mysqlDF,hiveDF.col("deptno") === mysqlDF.col("DEPTNO"))

结果:
在这里插入图片描述
同时可以选择查看的数据列:

//查看hive数据中的"empno"和"ename"列,mysql数据中的deptno和dname列
resultDF.select(hiveDF.col("empno"),hiveDF.col("ename"),mysqlDF.col("deptno"),mysqlDF.col("dname")).show()

结果:
在这里插入图片描述
至此就完成了在SparkSQL中mysql和hive关联表的操作…

想要获得更多,就要付出更多乘10倍的努力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值