python写wordcount_Python开发Spark应用之Wordcount词频统计

最新推荐文章于 2023-11-18 09:31:07 发布

飞天鬼王

最新推荐文章于 2023-11-18 09:31:07 发布

阅读量979

点赞数

文章标签： python写wordcount

本文链接：https://blog.csdn.net/weixin_36053398/article/details/113655520

版权

一个早上只做了一点微小的工作，很忏愧。但是发现Spark这玩意还是蛮有意思的。下面给大家介绍一下如何用python跑一遍Wordcount的词频统计的示例程序。

在operator模块中导入add类from pyspark import SparkContext, SparkConf from operator import add#应用程序名#初始化一个SparkContext，现在sc就是一个SparkContext的实例化对象，然后方可创建RDD。

appName = "WordCount"conf = SparkConf().setAppName(appName).setMaster("local")sc = SparkContext(conf=conf)# inputFiles表示输入文件路径

stopWordFile表示停词文件路径

outputFile表示输出文件路径inputFiles = "/home/hadoop/software/spark-2.0.0-bin-hadoop2.6/examples/src/main/resources/wordcount/*"stopWordFile = "/home/hadoop/software/spark-2.0.0-bin-hadoop2.6/examples/src/main/resources/wordcount/stopword.txt"outputFile = "/tmp/result"#处理非单词符号targetList = list('\t().,?[]!;|') + ['--']#用空格替换这些标点符号，同时将替换后的行拆分成单词.在flatMap中使用replaceAndSplit函数def replaceAndSplit(s): for c in targetList: s = s.replace(c,

最低0.47元/天解锁文章

飞天鬼王

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python写wordcount_Python开发Spark应用之Wordcount词频统计

一个早上只做了一点微小的工作，很忏愧。但是发现Spark这玩意还是蛮有意思的。下面给大家介绍一下如何用python跑一遍Wordcount的词频统计的示例程序。在operator模块中导入add类from pyspark import SparkContext, SparkConf from operator import add#应用程序名#初始化一个SparkContext，现在sc就是一个S...
复制链接

扫一扫