spark-统计具体某个单词的数量

这篇博客介绍了如何在Spark大数据环境中,通过flatmap、map和reduceByKey操作统计特定单词的频数。作者从基础的单词统计入手,然后利用filter方法筛选出目标单词,最终成功获取了'Spark'这个词在文本中的出现次数。
摘要由CSDN通过智能技术生成

大数据的实验spark部分,网上和书上的能查到的资料都是统计所有单词的频数或者是某个单词的行数,无法具体到某个单词的频数,也是第一次接触相关语法,很陌生,想到在所有单词的基础上过滤一下,应该能查到某个具体单词的频数,就相当于SQL中在上一次结果中添加了 where …=… 语句,所以就按照这个思路开始研究filter方法,终于找到一篇相关博文(原文传送门),解决了问题。

scala> val rdd = sc.textFile("file:///usr/local/spark/README.md")
rdd: org.apache.spark.rdd.RDD[String] = file:///usr/local/spark/README.md MapPartitionsRDD[27] at textFile at <console>:24

scala> val wordcounts=rdd.flatMap(line => line.split(" ")).map(word=>(word,1)).reduceByKey((a,b)=>a+b).filter(_._1=="Spark")
wordcounts: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[31] at filter at <console>:25

scala> wordcounts.first()
res8: (String, Int) = (Spark,14)

scala> 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值