Spark从HDFS读取数据并转存MySQL

最新推荐文章于 2023-12-13 14:04:08 发布

「已注销」

最新推荐文章于 2023-12-13 14:04:08 发布

阅读量4.4k

点赞数 1

分类专栏： spark 文章标签： HDFS Spark MySQL

本文链接：https://blog.csdn.net/naruto00001/article/details/79722727

版权

该博客介绍了如何使用Spark从HDFS中读取数据，进行简单的处理，然后将结果存入MySQL数据库。通过spark-submit命令提交作业，但未详细指定资源分配。

摘要由CSDN通过智能技术生成

Spark从HDFS读入数据，简单处理并存入MySQL

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

/**
  * Created by admin_ on 27/03/2018.
  * 1. 创建sparkSession
  * 2. 获取sparkContext
  * 3. 读取HDFS数据文件
  * 4. map以\t分隔字段
  * 5. map将字段转为case class的属性
  * 6. 隐式转换为DataFrame
  * 7. DF创建temp view
  * 8. 准备sparkSession.sql查询
  * 9. 执行查询并将结果写入jdbc数据库
  */

case class Elec(id:Int, time:BigInt, value:Int)

object SparkSQLTest01 {
  def main(args: Array[String]) {
    val spark = SparkSession
      .builder()
      .appName("SparkSQLTest01")
      .getOrCreate()

    import spark.implicits._

    val elecDF = spark.sparkContext
      .textFile("hdfs://xxxxxxxx:8020/2015-01-01.dat")
      .map(_.split("\t"))
      .map(attr => Elec(attr(0).trim.toInt, attr(1).trim.toInt, attr(2).trim.toInt))
      .toDF()

    elecDF.createOrReplaceTempView("elec")

    val distinctDF = spark.sql("select max(value) from