spark词频统计

最新推荐文章于 2023-10-14 20:10:26 发布

骆骆爱学习

最新推荐文章于 2023-10-14 20:10:26 发布

阅读量5.7k

点赞数 2

文章标签： python spark

本文链接：https://blog.csdn.net/qq_34082921/article/details/124047436

版权

在这里插入图片描述
**最开始进入spark文件目录bin下输入“./pyspark”,就进入python交互式命令行，如果出现下图，表示成功，会显示spark的图表和版本号，我的版本是3.1.2
**

lines = sc.textFile("输入自身文件地址")

lambda是python中的匿名函数也叫做表达式

wordCount_1 = lines.flatMap(lambda line:line.split(" "))

wordCount_2 = wordCount_1.map(lambda x:(x,1))

wordCount_3 = wordCount_2.reduceByKey(lambda a,b:a+b)
#分组过程是两两合并，因为他们的key是相同的，只有它们的Value相加就会得到这个单词的总次数

print（wordCount_3.collect()）

在此附上我的结果图，因为我的数据文件很大，单词很多，有点乱
在这里插入图片描述
最后再附上课本中spark词频统计流程示意图，以便加深理解

到此spark 词频统计就结束了，这是最基本spark的入门实操，上图如有侵权，联系我删除
博客更新于2022.4.8日18点15分

关注