使用Python本地运行Spark获取中文文章词频TopN

最新推荐文章于 2024-01-03 14:02:26 发布

SpecialRiot

最新推荐文章于 2024-01-03 14:02:26 发布

阅读量1.6k

点赞数

分类专栏：大数据文章标签： spark python

本文链接：https://blog.csdn.net/SpecialRiot/article/details/123334409

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.环境准备

在Windows下使用Pycharm运行Spark代码_SpecialRiot的博客-CSDN博客

2.代码实现

分词使用的jieba分词框架，通过分词后进行wordCount操作再对value进行排序，截取前N个。

from pyspark import SparkConf,SparkContext
import jieba


def main(sc):
        textFile = sc.textFile("./word.txt")
        #分词 一行变多行
        rdd1 = textFile.flatMap(lambda line:jieba.cut(line, cut_all= False))
        #转为KV
        rdd2 = rdd1.map(lambda word: (word, 1))
        #根据K进行合并,并将V的值累加
        rdd3 = rdd2.reduceByKey(lambda a, b: a + b)
        #根据V进行降序排序
        rdd4 = rdd3.sortBy(lambda x: x[1], ascending = False)
        #获取前10条数据
        rdd5 = rdd4.take(10)
        #进行打印
        for a in rdd5:
            print(a)

if __name__ =="__main__":
        conf = SparkConf().setAppName("application")
        conf = conf.setMaster("local")
        sc = SparkContext(conf=conf)
        main(sc)

3.运行结果

结果中符号排序在前，可以先进行数据清理工作再运行。

SpecialRiot

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
使用Python本地运行Spark获取中文文章词频TopN

1.环境准备在Windows下使用Pycharm运行Spark代码_SpecialRiot的博客-CSDN博客2.代码实现分词使用的jieba分词框架，通过分词后进行wordCount操作再对value进行排序，截取前N个。from pyspark import SparkConf,SparkContextimport jiebadef main(sc): textFile = sc.textFile("./word.txt") #分词一行变多行
复制链接

扫一扫

专栏目录