Spark Streaming整合Kafka实现网站点击流实时统计

最新推荐文章于 2023-12-28 12:33:33 发布

常耀斌

最新推荐文章于 2023-12-28 12:33:33 发布

阅读量554

点赞数 1

分类专栏： Spark生态核心技术

本文链接：https://blog.csdn.net/Peter_Changyb/article/details/85234830

版权

Spark生态核心技术专栏收录该内容

27 篇文章 2 订阅

订阅专栏

安装并配置zk
安装并配置Kafka
启动zk
启动Kafka
创建topic

bin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,node2.itcast.cn:2181 \

--replication-factor 3 --partitions 3 --topic urlcount

package cn.itcast.spark.streaming

package cn.itcast.spark

import org.apache.spark.{HashPartitioner, SparkConf}
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

object UrlCount {
  val updateFunc = (iterator: Iterator[(String, Seq[Int], Option[Int])]) => {
    iterator.flatMap{case(x,y,z)=> Some(y.sum + z.getOrElse(0)).map(n=>(x, n))}
  }

  def main(args: Array[String]) {
    //接收命令行中的参数
    val Array(zkQuorum, groupId, topics, numThreads, hdfs) = args
    //创建SparkConf并设置AppName
    val conf = new SparkConf().setAppName("UrlCount")
    //创建StreamingContext
    val ssc = new StreamingContext(conf, Seconds(2))
    //设置检查点
    ssc.checkpoint(hdfs)
    //设置topic信息
    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
    //重Kafka中拉取数据创建DStream
    val lines = KafkaUtils.createStream(ssc, zkQuorum ,groupId, topicMap, StorageLevel.MEMORY_AND_DISK).map(_._2)
    //切分数据，截取用户点击的url
    val urls = lines.map(x=>(x.split(" ")(6), 1))
    //统计URL点击量
    val result = urls.updateStateByKey(updateFunc, new HashPartitioner(ssc.sparkContext.defaultParallelism), true)
    //将结果打印到控制台
    result.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

常耀斌

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Streaming整合Kafka实现网站点击流实时统计

安装并配置zk 安装并配置Kafka 启动zk 启动Kafka 创建topicbin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,node2.itcast.cn:2181 \--replication-factor 3 --partitions 3 --topic urlcountpackage cn....
复制链接

扫一扫

专栏目录