SparkStreaming整合mysql

测试过程:

1.向虚拟机mini1的7777端口发送一个个的单词信息
2.Streaming程序接受7777端口的数据,并做处理。
3.将DStream[(String, Int)]转化成RDD写入到mysql

程序如下:

package spark.SparkStreaming.file
import java.sql.DriverManager
import org.apache.spark.SparkContext
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{Seconds, StreamingContext}
object streaming2Mysql {
  def main(args: Array[String]): Unit = {
      //SparkSession
      val spark: SparkSession = SparkSession.builder()
        .appName(streaming2Mysql.getClass.getSimpleName)
        .master("local[*]")
        .getOrCreate()
      val sc: SparkContext = spark.sparkContext
      val ssc: StreamingContext = new StreamingContext(sc, Seconds(2))
      ssc.checkpoint("file:///C:\\ck")
      //DStream,迭代计算,并显示内容
      ssc.socketTextStream("mini1", 7777)
        .flatMap(_.split("\\s+"))
        .filter(_.nonEmpty)
        .map((_, 1))
        .updateStateByKey((nowBatch: Seq[Int], historyResult: Option[Int]) => Some(nowBatch.sum + historyResult.getOrElse(0)))
        .foreachRDD(rdd => {
          if (!rdd.isEmpty()) {
            rdd.foreachPartition(itr => {
              if (!itr.isEmpty) {
                itr.foreach(perEle => {
                  val word = perEle._1
                  val cnt = perEle._2
                  save2DB(word, cnt)
                })
              }
            })
          }
        })

      //启动SparkStreaming应用
      ssc.start
      //等待结束(必须要添加)
      ssc.awaitTermination
    }
    /**
      * 保存到DB中
      * @param word
      * @param cnt
      */
      
    def save2DB(word: String, cnt: Int) = {
      //加载驱动
      classOf[com.mysql.
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Spark Streaming与Kafka整合案例: 1. 项目背景 本案例是一个实时数据处理项目,主要使用Spark Streaming和Kafka进行数据处理和传输。数据源为Kafka,数据处理和计算使用Spark Streaming,最终将结果输出到MySQL数据库中。 2. 技术架构 本案例的技术架构如下: 数据源:Kafka 数据处理和计算:Spark Streaming 数据存储:MySQL 3. 实现步骤 1)创建Kafka生产者,向Kafka中写入数据。 2)创建Spark Streaming应用程序,从Kafka中读取数据。 3)对读取到的数据进行处理和计算。 4)将计算结果输出到MySQL数据库中。 4. 代码示例 以下是本案例的代码示例: 1)Kafka生产者代码: from kafka import KafkaProducer producer = KafkaProducer(bootstrap_servers='localhost:9092') for i in range(10): producer.send('test', b'message %d' % i) producer.close() 2)Spark Streaming代码: from pyspark.streaming.kafka import KafkaUtils from pyspark.streaming import StreamingContext from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName('KafkaSparkStreaming').setMaster('local[2]') sc = SparkContext(conf=conf) ssc = StreamingContext(sc, 5) kafkaParams = {"metadata.broker.list": "localhost:9092"} stream = KafkaUtils.createDirectStream(ssc, ["test"], kafkaParams) lines = stream.map(lambda x: x[1]) counts = lines.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b) counts.pprint() ssc.start() ssc.awaitTermination() 3)MySQL代码: import mysql.connector cnx = mysql.connector.connect(user='root', password='password', host='localhost', database='test') cursor = cnx.cursor() add_data = ("INSERT INTO word_count (word, count) VALUES (%s, %s)") data = [('hello', 1), ('world', 2), ('spark', 3)] for d in data: cursor.execute(add_data, d) cnx.commit() cursor.close() cnx.close() 5. 总结 本案例使用Spark Streaming和Kafka进行实时数据处理和传输,并将结果输出到MySQL数据库中。通过本案例的实现,可以深入了解Spark Streaming和Kafka的使用方法和技术原理,为实际项目的开发提供参考和借鉴。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值