Spark SQL 能够使用 JDBC 从数据库读取表的数据源。当使用 JDBC 访问其它数据库时,应该首选 JdbcRDD。这是因为结果是以数据框(DataFrame)返回的,且这样 Spark SQL操作轻松或便于连接其它数据源。
通过将所需数据存储在mysql数据库,利用jdbc方式连接获取表数据,从而形成sql拼接进行hive库的数据表的操作。
次处:进行对Hive分区表的删除,创建,加载(插入数据)。
import Spark_Sql.session
import org.apache.spark.SparkConf
import org.apache.spark.sql.{Row, SparkSession}
import scala.util.control._
object Spark_Sql {
//spark初始化
val sconf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("ETL")
val spark: SparkSession = SparkSession.builder().config(sconf).getOrCreate();
spark.catalog.currentDatabase;
def main(args: Array[String]) = {
//定义获取mysql连接
val frameReader = session.read.format("jdbc")
.option("url", "jdbc:mysql://192.168.8.172/Test")
.option("driver", "com.mysql.jdbc.Driver").option("user", "root").option("password", "Spark123!")
.option("dbtable", "student")
val dataFrame = frameReader.load().toDF()
//注册临时表
dataFrame.registerTempTable("test")
val test = spark.sql("select name from test").rdd.collect().toList
val list = spark.sql("select score from test").rdd.collect().toList
//定义判断变量
val outer = new Breaks;
val inner = new Breaks;
outer.breakable {
//遍历插入对应数据库字段数据
for (i <- test) {
inner.breakable {
for (l <- list) {