SparkStreaming foreachPartition实现输出数据到MYSQL

最新推荐文章于 2025-05-21 15:52:24 发布

原创最新推荐文章于 2025-05-21 15:52:24 发布 · 896 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#SparkStreaming foreachPartitio

新手必看同时被 3 个专栏收录

155 篇文章

订阅专栏

编程规则

95 篇文章

订阅专栏

Spark

29 篇文章

订阅专栏

本文介绍如何使用Apache Spark Streaming进行实时数据流处理，并将处理结果写入MySQL数据库。通过Socket接收数据，使用Spark RDD进行词频统计，最后将统计结果前三位保存到MySQL中。涉及Spark配置、数据流接收、词频统计窗口操作及MySQL集成。

import java.sql.DriverManager

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object foreachTOMysql {

  def writeToMysql()={
    val conf = new SparkConf().setMaster("local[*]").setAppName("MYsql")
    val ssc = new StreamingContext(conf,Seconds(5))
    val ItemStream = ssc.socketTextStream("192.168.59.100",8888)
    val ItemPairs = ItemStream.map({
      line =>
        (line.split(",")(0),1)
    })
    val ItemCount = ItemPairs.reduceByKeyAndWindow((v1:Int,v2:Int)=>v1+v2,Seconds(60),Seconds(10))
    val hottestWord = ItemCount.transform(itemRDD =>{
        val top3 = itemRDD.map(pair=>(pair._2,pair._1))
          .sortByKey(false)
          .map(pair=>(pair._2,pair._1))
          .take(3)
      ssc.sparkContext.makeRDD(top3)
      })
    hottestWord.foreachRDD(rdd=>{
      rdd.foreachPartition(partitionOfReconds=>{
        val url = "jdbc:mysql://192.168.59.100:3306/spark"
        val username = "root"
        val password = "123456"
        Class.forName("com.mysql.jdbc.Driver")
        val conn = DriverManager.getConnection(url,username,password)
        conn.prepareStatement("").executeUpdate()
        conn.setAutoCommit(false)
        val stmt = conn.createStatement()
        partitionOfReconds.foreach(recond=>{
          stmt.addBatch("")
        })
        stmt.executeBatch()
        conn.commit()
      })
    })
    ssc.start()
    ssc.awaitTermination()
    ssc.stop()
  }
}