SparkStreaming（伪实时计算框架）介绍，使用

最新推荐文章于 2024-04-24 14:15:52 发布

struggle@徐磊

最新推荐文章于 2024-04-24 14:15:52 发布

阅读量564

点赞数

分类专栏： # Spark Stream 文章标签： SparkStream

本文链接：https://blog.csdn.net/qq_44472134/article/details/104167410

版权

本文介绍了SparkRDD与SparkStream的区别，并详细讲解了如何使用SparkStream从Kafka获取数据，最终将数据存储到数据库中，涉及实时处理流程。

摘要由CSDN通过智能技术生成

一、SparkRDD和SparkStream的区别

二、SparkStream从Kafka上获取信息最后保存到数据库中

package com.stream.com

import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.streaming.kafka010._
import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent
import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe

/**
 * TODO
 *
 * @author 徐磊
 * @email wc199608203213@136.com
 * @data2020/02/04 上午 11:43
 */
object SparkStream extends App {
//累加函数
  val lj=(it:Iterator[(String,Seq[Int],Option[Int])])=>{
    it.flatMap{
      case(x,y,z)=>Some(y.sum+z.getOrEl