spark定时定要求统计某个文件夹下的文本数据

最新推荐文章于 2020-05-28 14:36:17 发布

小nove

最新推荐文章于 2020-05-28 14:36:17 发布

阅读量177

点赞数

分类专栏：实例大数据

本文链接：https://blog.csdn.net/qq_44698610/article/details/102961652

版权

实例同时被 2 个专栏收录

38 篇文章 0 订阅

订阅专栏

大数据

30 篇文章 0 订阅

订阅专栏

spark客户端下

url只写到目标文件夹。对于数据的统计。只对新创建的文件的内容进行操作。
本代码为统计文件的单词数量

import org.apache.spark.streaming._
val ssc = new StreamingContext(sc, Seconds(20))
val lines = ssc.textFileStream("file:opt/rh/data/student")
val words = lines.flatMap(_.split("\t"))
 val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _) 
wordCounts.print() 
ssc.start()
ssc.awaitTermination()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小nove

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark定时定要求统计某个文件夹下的文本数据

spark客户端下url只写到目标文件夹。对于数据的统计。只对新创建的文件的内容进行操作。本代码为统计文件的单词数量import org.apache.spark.streaming._val ssc = new StreamingContext(sc, Seconds(20))val lines = ssc.textFileStream("file:////opt/rh/data/st...
复制链接

扫一扫