（12）spark sql --操作 Mysql & Hive 代码实现

有何不可~

已于 2022-03-04 16:51:03 修改

阅读量1.4k

点赞数

于 2022-03-03 23:01:40 首次发布

本文链接：https://blog.csdn.net/qq_41123269/article/details/123266124

版权

Spark 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

spark sql --读取 Mysql & Hive 数据

- Mysql
- Hive

Mysql

Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。
在Idea 中通过 JDBC 对 Mysql 进行操作

导入依赖

<dependency>
	<groupId>mysql</groupId>
	<artifactId>mysql-connector-java</artifactId>
	<version>5.1.27</version>
</dependency>

读取数据

val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQL")

//创建 SparkSession 对象
val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()
 import spark.implicits._
 
//方式 1：通用的 load 方法读取
spark.read.format("jdbc")
.option("url", "jdbc:mysql://linux1:3306/spark-sql")
.option("driver", "com.mysql.jdbc.Driver")
.option("user", "root")
.option("password", "123123")
.option("dbtable", "user")
.load().show

//方式 2:通用的 load 方法读取 参数另一种形式
spark.read.format("jdbc")
.options(Map("url"->"jdbc:mysql://linux1:3306/spark-sql?user=root&password= 123123",
"dbtable"->"user","driver"->"com.mysql.jdbc.Driver")).load().show

//方式 3:使用 jdbc 方法读取
val props: Properties = new Properties() props.setProperty("user", "root") props.setProperty("password", "123123")
val df: DataFrame = spark.read.jdbc("jdbc:mysql://linux1:3306/spark-sql", "user", props)
df.show

//释放资源
spark.stop()

写入数据

case class User2(name: String, age: Long)

val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQL")

//创建 SparkSession 对象
val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate() import spark.implicits._

val rdd: RDD[User2] = spark.sparkContext.makeRDD(List(User2("lisi", 20), User2("zs", 30)))
val ds: Dataset[User2] = rdd.toDS
//方式 1：通用的方式 format 指定写出类型
ds.write
.format("jdbc")
.option("url", "jdbc:mysql://linux1:3306/spark-sql")
.option("user", "root")
.option("password", "123123")
.option("dbtable", "user")
.mode(SaveMode.Append)
.save()

//方式 2：通过 jdbc 方法
val props: Properties = new Properties() props.setProperty("user", "root") props.setProperty("password", "123123")
ds.write.mode(SaveMode.Append).jdbc("jdbc:mysql://linux1:3306/spark-sql", "user", props)

//释放资源
spark.stop()

Hive

1）添加依赖

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-hive_2.11</artifactId>
    <version>2.1.1</version>
</dependency>

<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-exec</artifactId>
    <version>1.2.1</version>
</dependency>

2）将hive-site.xml 文件拷贝到项目的 resources 目录中，
并且target/classes 目录下也要有hive-site.xml，如果没有也copy一份上去

3）代码实现
添加 enableHiveSupport()

//创建SparkSession
val spark: SparkSession = SparkSession
  .builder()
  .enableHiveSupport()
  .master("local[*]")
  .appName("SQLTest")
  .getOrCreate()

4）如果在执行操作时，出现如下错误：

可以代码最前面增加如下代码解决：
System.setProperty(“HADOOP_USER_NAME”, “root”)
此处的 root 改为你们自己的 hadoop 用户名称

有何不可~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（12）spark sql --操作 Mysql & Hive 代码实现

spark sql --读取 Mysql & Hive 数据MysqlHiveMysqlSpark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。可在启动shell时指定相关的数据库驱动路径，或者将相关的数据库驱动放到spark的类路径下。1）启动spark-shellbin/spark-shell --master spark://hadoop102:7077 [--jars mysq
复制链接

扫一扫

专栏目录