spark词频统计

spark词频统计

在这里插入图片描述
**最开始进入spark文件目录bin下输入“./pyspark”,就进入python交互式命令行,如果出现下图,表示成功,会显示spark的图表和版本号,我的版本是3.1.2
**在这里插入图片描述

第一步、在尖括号右侧写代码sc是一种抽象接口,在pyspark中我们可以直接调用,不必写sc。sc.textFile(“输入自身文件地址”)获取文件数据。
lines = sc.textFile("输入自身文件地址")
第二步、得到数据后就需要分割数据,这里是按照空格分隔

lambda是python中的匿名函数也叫做表达式

wordCount_1 = lines.flatMap(lambda line:line.split(" "))
第三步、数据按照空格分隔后,得到的是一个个的单词,现在需要把单词转换成KV类型的,方便下一步单词计数。
wordCount_2 = wordCount_1.map(lambda x:(x,1))
第四步、接下来,需要把数据聚合了,用到reduceByKey算子,按照key进行分组
wordCount_3 = wordCount_2.reduceByKey(lambda a,b:a+b)
#分组过程是两两合并,因为他们的key是相同的,只有它们的Value相加就会得到这个单词的总次数
第五步、所有计算工作都做好之后,可以使用collect方法查看完成的词频统计
print(wordCount_3.collect()

在此附上我的结果图,因为我的数据文件很大,单词很多,有点乱
在这里插入图片描述
最后再附上课本中spark词频统计流程示意图,以便加深理解
在这里插入图片描述

到此spark 词频统计就结束了,这是最基本spark的入门实操,上图如有侵权,联系我删除
博客更新于2022.4.8日18点15分

  • 2
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

骆骆爱学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值