spark-统计具体某个单词的数量

最新推荐文章于 2022-01-26 17:38:44 发布

会有钱的-_-

最新推荐文章于 2022-01-26 17:38:44 发布

阅读量816

点赞数 2

分类专栏： /study/大数据学习文章标签：大数据 spark

本文链接：https://blog.csdn.net/qq_43447401/article/details/116068067

版权

/study/大数据学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

这篇博客介绍了如何在Spark大数据环境中，通过flatmap、map和reduceByKey操作统计特定单词的频数。作者从基础的单词统计入手，然后利用filter方法筛选出目标单词，最终成功获取了'Spark'这个词在文本中的出现次数。

摘要由CSDN通过智能技术生成

大数据的实验spark部分，网上和书上的能查到的资料都是统计所有单词的频数或者是某个单词的行数，无法具体到某个单词的频数，也是第一次接触相关语法，很陌生，想到在所有单词的基础上过滤一下，应该能查到某个具体单词的频数，就相当于SQL中在上一次结果中添加了 where …=… 语句，所以就按照这个思路开始研究filter方法，终于找到一篇相关博文（原文传送门），解决了问题。

scala> val rdd = sc.textFile("file:///usr/local/spark/README.md")
rdd: org.apache.spark.rdd.RDD[String] = file:///usr/local/spark/README.md MapPartitionsRDD[27] at textFile at <console>:24

scala> val wordcounts=rdd.flatMap(line => line.split(" ")).map(word=>(word,1)).reduceByKey((a,b)=>a+b).filter(_._1=="Spark")
wordcounts: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[31] at filter at <console>:25

scala> wordcounts.first()
res8: (String, Int) = (Spark,14)

scala>