[Spark应用]-- 实现单词统计（数据源在hdfs上）

最新推荐文章于 2022-10-19 17:16:53 发布

往事随风ing

最新推荐文章于 2022-10-19 17:16:53 发布

阅读量1.8k

点赞数

分类专栏： Spark 文章标签： spark scala

本文链接：https://blog.csdn.net/high2011/article/details/51584934

版权

Spark 专栏收录该内容

133 篇文章 10 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文档详细介绍了如何利用Apache Spark和Scala编程语言，从Hadoop分布式文件系统（HDFS）读取数据，并进行单词统计分析。通过实例代码，展示了Spark的高效数据处理能力。

摘要由CSDN通过智能技术生成

实现如下

package com.scala.my

import org.apache.spark.streaming.StreamingContext
import org.apache.spark.SparkConf
import org.apache.spark.streaming.Durations
/**
 * scala版本的hdfs上wordCount
 */
object HdfsWordCount {
  def main(args: Array[String]): Unit = {
    //获取streamingContex，并设置切分rdd时间为6s
    val sc=new StreamingContext(new SparkConf().setAppName("hdfsCount").setMaster("local[2]"),Durations.seconds(5))
    //读取hdfs上的数据
    val lines =sc.textFileStream("hdfs://master:8020/wordcount_dir")
    //压扁
    val paris=lines.flatMap(x=>x.split(","))
    //map
    val map=paris.map { (_,1) }   
    //reduceBykey
    val words=map.reduceByKey(_+_)
    //打印前10个
    words.print()
    //开启
    sc.start()
    //等待
    sc.awaitTermination()
    //关闭资源
    sc.stop()
  }
}