请编写代码，针对words.txt文本（此文本已经存储在HDFS的/pydata/input/文件夹下）进行词频计算。要求1，将词频统计的结果存储在HDFS的/pydata/output5/路径下

最新推荐文章于 2024-08-28 21:56:33 发布

叫我王富贵i

最新推荐文章于 2024-08-28 21:56:33 发布

阅读量162

点赞数 2

分类专栏： spark 文章标签： hdfs 大数据

本文链接：https://blog.csdn.net/u014142328/article/details/141593273

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

请编写代码，针对words.txt文本（此文本已经存储在HDFS的/pydata/input/文件夹下）进行词频计算。

要求1，将词频统计的结果存储在HDFS的/pydata/output5/路径下

words.txt

hello world hello hadoop
hadoop hello world hive
hive hive hadoop
hadoop hadoop hive
hive hadoop hello hello
sqoop hive hadoop hello hello
hello world hello hadoop
hadoop hello world hive
hive hive hadoop

要求2，统计词频前三的单词，统计词频最高的单词，统计词频最低的单词，呈现结果如下。

前三：[('hadoop', 10), ('hello', 10), ('hive', 9)]
最高：('hadoop', 10)
最低：('world', 4)


import os
from pyspark import SparkContext, SparkConf
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DIRVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':

    conf = SparkConf().setAppName('wordcount').setMaster('local[*]')
    sc = SparkContext(conf=conf)

    rdd_init = sc.textFile('file:///export/data/workspace/pyspark_parent/practice/data/words.txt')
    # print(rdd_init.collect())

    rdd_split = rdd_init.flatMap(lambda line:line.split())

    rdd_word = rdd_split.map(lambda word: (word,1))

    rdd_res = rdd_word.reduceByKey(lambda agg,curr: agg+curr)
    rdd_res.saveAsTextFile('hdfs://node1:8020/pydata/output5/')


    rdd_sort = rdd_res.sortBy(lambda line:line[1], ascending=False)
    psorted_list = rdd_sort.collect()
    # 前三
    print(psorted_list[:3])
    # # 最大
    print(psorted_list[0])
    # # 最小
    print(psorted_list[-1])

叫我王富贵i

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
请编写代码，针对words.txt文本（此文本已经存储在HDFS的/pydata/input/文件夹下）进行词频计算。要求1，将词频统计的结果存储在HDFS的/pydata/output5/路径下

请编写代码，针对words.txt文本（此文本已经存储在HDFS的/pydata/input/文件夹下）进行词频计算。前三：[('hadoop', 10), ('hello', 10), ('hive', 9)]要求2，统计词频前三的单词，统计词频最高的单词，统计词频最低的单词，呈现结果如下。最高：('hadoop', 10)最低：('world', 4)
复制链接

扫一扫