Spark下的WordCount案列演示

最新推荐文章于 2023-01-14 19:55:05 发布

大鱼-瓶邪

最新推荐文章于 2023-01-14 19:55:05 发布

阅读量568

点赞数

分类专栏： Spark 数理统计 Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25948717/article/details/81940685

版权

Hadoop 同时被 3 个专栏收录

58 篇文章 7 订阅

订阅专栏

32 篇文章 1 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

安装教程见我其他博客https://blog.csdn.net/qq_25948717/article/details/80758713，

在终端输入pyspark进入spark环境：

test.txt

进入：

读取文本文件：

>>> textFile = sc.textFile("test.txt")

使用flatMap空格分隔单词，并读取每个单词

注意flatMap和map不同，map产生的List是分层的，第一层是文本的每一行，第二层是每行内的单词

flatMap直接将分层去掉，就是把所有单词读取为List。

>>> stringRDD = textFile.flatMap(lambda line:line.split(" "))

通过mapreduce计算每个单词出现的次数

>>>countRDD = stringRDD.map(lambda word:(word,1)).reduceByKey(lambda x,y:x+y)

保存计算结果：

>>>countRDD.saveAsTextFile("output")

查看结果：发现结果分片了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark下的WordCount案列演示

安装教程见我其他博客https://blog.csdn.net/qq_25948717/article/details/80758713，在终端输入pyspark进入spark环境：test.txt进入：读取文本文件：&gt;&gt;&gt; textFile = sc.textFile("test.txt")使用flatMap空格分隔单词，并读取每个单词注...
复制链接

扫一扫

专栏目录

大鱼-瓶邪 CSDN认证博客专家 CSDN认证企业博客

码龄9年

174: 原创

17万+: 周排名

178万+: 总排名

104万+: 访问

: 等级

7381: 积分

465: 粉丝

640: 获赞

200: 评论

3061: 收藏

私信

关注

热门文章

分类专栏

Hadoop 58篇
数学 2篇
算法 7篇
Python 30篇
Java 32篇
Linux 24篇
机器学习 15篇
网络技术 18篇
区块链
NIMROD 8篇
数据库 7篇
科研文献
Spark 32篇
Zookeeper 4篇
HIve 6篇
操作系统 3篇
数理统计 10篇
hbase 5篇
Scala 17篇
Redis 7篇
LeetCode 2篇
Yexin

最新评论

张量的通俗理解
m0_64598000: 到几何那一块就没看懂了，不过感觉很屌。
贝叶斯分类器(Python实现+详细完整源码和原理)
m0_62701054: 代码可以运行，讲解很清楚，感谢大佬！
贝叶斯分类器(Python实现+详细完整源码和原理)
Heisenbarge: 求源代码：936765868@qq.com
超级详细的协同过滤推荐系统+完整Python实现及结果
songfall: 在质疑别人看清之前可否先确认自己看清楚了呢？其一，41行注释写着：“注意：distance越大代表两者越相似”；其二，44行代码取得是distance倒数，才有“返回值越小，相似度越大”。我当时是把代码敲了一遍，然后想到上面的问题。请问你觉得我哪里没看清楚呢？
贝叶斯分类器(Python实现+详细完整源码和原理)
lalalaaiyo: 可以发下源码嘛，2167925018@qq.com，谢谢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。