SparkStreaming实时词频统计_路漫漫远俢兮

最新推荐文章于 2023-04-23 14:38:41 发布

路漫漫，远修兮

最新推荐文章于 2023-04-23 14:38:41 发布

阅读量471

点赞数 1

分类专栏： spark Scala 文章标签： spark

本文链接：https://blog.csdn.net/qq_41827968/article/details/106616844

版权

Scala 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

spark

2 篇文章 0 订阅

订阅专栏

import org.apache.spark._
import org.apache.spark.streaming._

object FileTestStream{//这是一个实时监控一个目录，来进行词频统计的脚本
        def main(args:Array[String]):Unit={
                //设置为本地运行模式，两个线程，一个监听，一个处理数据
                val sparkConf=new SparkConf().setAppName("WordCountStream").setMaster("local[2]");
    
                val ssc=new StreamingContext(sparkConf,Seconds(20));//时间间隔2秒 

                //读取数据
                val lines=ssc.textFileStream("file:root/scalaStudy/dataFile/streamingData/");

                //数据处理，用户逻辑
                val wordCounts=lines.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_);

                //结果展示
                wordCounts.print();

                //启动监听
                ssc.start();

                //手动结束监听
                ssc.awaitTermination();
        }   
}

打包：

提交运行，结果如下：

输入数据：

结果运行：ctrl+c结束程序

座右铭：站在别人的思想上，看见自己的不足，传播错误的经验，愿君不重蹈覆辙

由于受限于本人经验，难免不足，如有建议，欢迎留言交流

说明：如果喜欢，请点赞，您的鼓励是本人前进最好的动力

路漫漫，远修兮

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming实时词频统计_路漫漫远俢兮

import org.apache.spark._import org.apache.spark.streaming._object FileTestStream{//这是一个实时监控一个目录，来进行词频统计的脚本 def main(args:Array[String]):Unit={ //设置为本地运行模式，两个线程，一个监听，一个处理数据 val sparkConf=new SparkConf().setAppNam.
复制链接

扫一扫