SparkSql与Mysql交互, SparkSql如何读取Mysql中的数据, SparkSql如何将数据写入Mysql 26

最新推荐文章于 2024-03-06 07:25:57 发布

啊策策

最新推荐文章于 2024-03-06 07:25:57 发布

阅读量1.4k

点赞数 2

分类专栏： Spark社区文章标签： SparkSql与Mysql交互 SparkSql如何读取Mysql中的数据 SparkSql如何将数据写入Mysql

本文链接：https://blog.csdn.net/weixin_42641909/article/details/102398982

版权

Spark社区专栏收录该内容

38 篇文章 4 订阅

订阅专栏

前言

SparkSql可以通过JDBC从关系型数据库中读取数据,创建DataFrame. 然后通过一系列操作后再把数据写回关系型数据库中.

1. Spark从Mysql中读取数据

1.1 通过IDEA中代码加载

要设置好properties属性,也就是登录Mysql的用户名和密码
通过spark.read.jdbc读取数据.

package com.acece.sparkSql
import java.util.Properties
import org.apache.spark.sql.{DataFrame, SparkSession}
/**
  * todo:Sparksql从mysql中加载数据
  */
object DataFromMysql {
  def main(args: Array[String]): Unit = {
      //todo:1、创建sparkSession对象
      val spark: SparkSession = SparkSession.builder()
        .appName("DataFromMysql")
        .master("local[2]")
        .getOrCreate()
    //todo:2、创建Properties对象，设置连接mysql的用户名和密码
    val properties: Properties =new Properties()
    properties.setProperty("user","root")
    properties.setProperty("password","123456")
    //todo:3、读取mysql中的数据
    val mysqlDF: DataFrame = spark.read.jdbc("jdbc:mysql://192.168.200.100:3306/spark","iplocation",properties)
    //todo:4、显示mysql中表的数据
    mysqlDF.show()
    spark.stop()
  }
}

查看执行结果

1.2 通过Spark-shell读取Mysql中数据
- 启动Spark-shell, 必须指定Mysql的驱动包

spark-shell \
--master spark://hdp-node-01:7077 \
--executor-memory 1g \
--total-executor-cores  2 \
--jars /opt/bigdata/hive/lib/mysql-connector-java-5.1.35.jar \
--driver-class-path /opt/bigdata/hive/lib/mysql-connector-java-5.1.35.jar

从Mysql中加载数据

val mysqlDF = spark.read \
				   .format("jdbc") \
				   .options(Map("url" -> \
			"jdbc:mysql://192.168.200.150:3306/spark", "driver" -> \
			"com.mysql.jdbc.Driver", "dbtable" -> "iplocation","user" -> \
			"root", "password" -> "123456")).load()

执行查询

2. SparkSql将数据写入到MySQL中

使用代码的方式,通过IDEAb编码

首先要读取数据,比如"\person.txt"
然后解析数据, 生成DataFrame,最后注册成表
创建properties属性, 连接数据库的用户名和密码
通过spark.write.jdbc写入到数据库中.

package com.acece.sparkSql
import java.util.Properties
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Dataset, SaveMode, SparkSession}
/**
  * todo:sparksql写入数据到mysql中
  */
  
//todo:创建样例类Student
case class Student(id:Int,name:String,age:Int)

object SparkSqlToMysql {
  def main(args: Array[String]): Unit = {
    //todo:1、创建sparkSession对象
      val spark: SparkSession = SparkSession.builder()
        .appName("SparkSqlToMysql")
        .getOrCreate()
    //todo:2、读取数据
      val data: RDD[String] = spark.sparkContext.textFile(args(0))
    //todo:3、切分每一行,
    val arrRDD: RDD[Array[String]] = data.map(_.split(" "))
    //todo:4、RDD关联Student
    val studentRDD: RDD[Student] = arrRDD.map(x=>Student(x(0).toInt,x(1),x(2).toInt))
    //todo:导入隐式转换
    import spark.implicits._
    //todo:5、将RDD转换成DataFrame
    val studentDF: DataFrame = studentRDD.toDF()
    //todo:6、将DataFrame注册成表
    studentDF.createOrReplaceTempView("student")
    //todo:7、操作student表 ,按照年龄进行降序排列
    val resultDF: DataFrame = spark.sql("select * from student order by age desc")

    //todo:8、把结果保存在mysql表中
      //todo:创建Properties对象，配置连接mysql的用户名和密码
      val prop =new Properties()
      prop.setProperty("user","root")
      prop.setProperty("password","123456")

  resultDF.write.jdbc("jdbc:mysql://192.168.200.150:3306/spark","student",prop)

    //todo:写入mysql时，可以配置插入mode，overwrite覆盖，append追加，ignore忽略，error默认表存在报错
    //resultDF.write.mode(SaveMode.Overwrite).jdbc("jdbc:mysql://192.168.200.150:3306/spark","student",prop)
    spark.stop()
  }
}

用Maven打包
通过IDEA工具打包即可
将Jar包提交到spark集群

spark-submit \
--class itcast.sql.SparkSqlToMysql \
--master spark://hdp-node-01:7077 \
--executor-memory 1g \
--total-executor-cores 2 \
--jars /opt/bigdata/hive/lib/mysql-connector-java-5.1.35.jar  \
--driver-class-path /opt/bigdata/hive/lib/mysql-connector-java-5.1.35.jar \
/root/original-spark-2.0.2.jar  /person.txt