Spark-Streaming>实战练习

最新推荐文章于 2020-06-07 15:18:59 发布

BigMoM1573

最新推荐文章于 2020-06-07 15:18:59 发布

阅读量498

点赞数

分类专栏： SparkStreaming 文章标签： SparkStreaming

本文链接：https://blog.csdn.net/qq_44509920/article/details/105550696

版权

本文介绍了如何使用Spark Streaming进行实时数据处理，包括WordCount示例，通过updateStateByKey实现累计计数，以及利用reduceByKeyAndWindow进行滑动窗口操作。此外，还展示了如何统计一定时间内的热门词汇TopN，以模拟百度热搜排行榜功能。

摘要由CSDN通过智能技术生成

WordCount

1、需求&准备
图解
在这里插入图片描述

首先在linux服务器上安装nc工具
nc是netcat的简称，原本是用来设置路由器,我们可以利用它向某个端口发送数据
yum install -y nc
启动一个服务端并开放9999端口,等一下往这个端口发数据
nc -lk 9999
发送数据

2、代码演示

package cn.itcast.streaming

import org.apache.spark.streaming.dstream.{
   DStream, ReceiverInputDStream}
import org.apache.spark.{
   SparkConf, SparkContext}
import org.apache.spark.streaming.{
   Seconds, StreamingContext}

object WordCount {
   
  def main(args: Array[String]): Unit = {
   
    //1.创建StreamingContext
    //spark.master should be set as local[n], n > 1
    val conf = new SparkConf().setAppName("wc").setMaster("local[*]")
    val sc = new SparkContext(conf)
    sc.setLogLevel("WARN")
    //5表示5秒中对数据进行切分形成一个RDD
    val ssc = new StreamingContext(sc,Seconds(5))
    //2.监听Socket接收数据
    //ReceiverInputDStream就是接收到的所有的数据组成的RDD,封装成了DStream,接下来对DStream进行操作就是对RDD进行操作
    val dataDStream: ReceiverInputDStream[String] = ssc.socketTextStream("node01",9999)
    //3.操作数据   (计算每个批次的数据得单词的总和)
     val WordCount: DStream[(String, Int)] = dataDStream.flatMap(a=>a.split(" ")).map(x=>(x,1)).reduceByKey(_+_)
     
    wordAndCount.print()
    ssc.start()//开启
    ssc.awaitTermination()//等待停止
  }
}

3、执行

1.先执行nc -lk 9999
2.然后执行代码
3.不断的在1中输入不同的单词
hadoop spark sqoop hadoop spark hive hadoop
4.观察IDEA控制台输出
sparkStreaming每隔5s计算一次当前5s内的数据，然后将每个批次的数据输出

updateStateByKey

1、问题
在上面的那个案例中存在这样一个问题：
每个批次的单词次数都被正确的统计出来，但是结果不能累加！
如果需要累加需要使用updateStateByKey(func)来更新状态.

2、代码演示

package cn.itcast.streaming

import org.apache

最低0.47元/天解锁文章

BigMoM1573

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录