Sparksql连接Mysql操作Hive表数据

最新推荐文章于 2023-03-04 11:10:44 发布

布小昕

最新推荐文章于 2023-03-04 11:10:44 发布

阅读量409

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/Dkey_775/article/details/107063995

版权

本文介绍如何利用Spark SQL通过JDBC连接MySQL，读取数据并进行Hive表的操作，包括删除、创建和加载（插入）分区表。在执行过程中，详细介绍了所需的pom.xml配置和Spark提交运行命令。

摘要由CSDN通过智能技术生成

Spark SQL 能够使用 JDBC 从数据库读取表的数据源。当使用 JDBC 访问其它数据库时，应该首选 JdbcRDD。这是因为结果是以数据框（DataFrame）返回的，且这样 Spark SQL操作轻松或便于连接其它数据源。

通过将所需数据存储在mysql数据库，利用jdbc方式连接获取表数据，从而形成sql拼接进行hive库的数据表的操作。

次处：进行对Hive分区表的删除，创建，加载（插入数据）。


import Spark_Sql.session
import org.apache.spark.SparkConf
import org.apache.spark.sql.{Row, SparkSession}
import scala.util.control._


object Spark_Sql {
  //spark初始化
  val sconf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("ETL")
  val spark: SparkSession = SparkSession.builder().config(sconf).getOrCreate();
  spark.catalog.currentDatabase;


  def main(args: Array[String]) = {

    //定义获取mysql连接
    val frameReader = session.read.format("jdbc")
      .option("url", "jdbc:mysql://192.168.8.172/Test")
      .option("driver", "com.mysql.jdbc.Driver").option("user", "root").option("password", "Spark123!")
      .option("dbtable", "student")
    val dataFrame = frameReader.load().toDF()
    //注册临时表
    dataFrame.registerTempTable("test")
    val test = spark.sql("select name from test").rdd.collect().toList
    val list = spark.sql("select score from test").rdd.collect().toList
    //定义判断变量
    val outer = new Breaks;
    val inner = new Breaks;
    outer.breakable {
      //遍历插入对应数据库字段数据
      for (i <- test) {
        inner.breakable {
          for (l <- list) {