PySpark简单使用(三)——reduceByKey方法

FuzhouJiang

已于 2023-06-12 16:06:19 修改

阅读量272

点赞数

分类专栏： python 文章标签： python 开发语言

于 2023-06-12 15:22:25 首次发布

本文链接：https://blog.csdn.net/qq_42120843/article/details/131169596

版权

python 专栏收录该内容

26 篇文章 3 订阅

订阅专栏

介绍

在这里插入图片描述

reduceByKey 可以将kv型嵌套元组分组，并且根据指定函数进行合并计算:

在这里插入图片描述

具体例子如下：

from pyspark import SparkConf, SparkContext
import os
# 让PySpark知道Python的解释器位置
os.environ['PYSPARK_PYTHON'] = "C:/Python310/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# 准备一个RDD，数据集
rdd = sc.parallelize([('男', 99), ('女', 99), ('男', 88), ('女', 66)])
# 求男生和女生两个组的成绩和
rdd2= rdd.reduceByKey(lambda a, b: a + b)
print(rdd2.collect())

sc.stop()

输出结果：

[(‘男’, 187), (‘女’, 165)]

说明：reduceByKey 就是按元组的第一个元素（男还是女）来分组，然后对组内所有元组的第二个元素来执行相对应函数

练习案例：实现单词计数统计

单词文件hello.txt 如下：

itheima itheima itcast itheima

spark python spark python itheima

itheima itcast itcast itheima python

python python spark pyspark pyspark

itheima python pyspark itcast spark

from pyspark import SparkConf, SparkContext
import os
# 1.让PySpark知道Python的解释器位置
os.environ['PYSPARK_PYTHON'] = "C:/Python310/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# 2.读取数据文件
rdd = sc.textFile("./hello.txt")

# 3.取出全部单词，要解嵌套,这里传给x的每个实参都是字符串list
word_rdd = rdd.flatMap(lambda x: x.split(" "))

# 4.将所有单词都转换成二元元组，单词为key， value为1
word_tuple_list = word_rdd.map(lambda word: (word, 1))

# 5.分组并求和
result_add = word_tuple_list.reduceByKey(lambda a, b: a + b)
print(result_add.collect())

输出结果

[(‘itcast’, 4), (‘python’, 6), (‘itheima’, 7), (‘spark’, 4), (‘pyspark’, 3)]

FuzhouJiang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PySpark简单使用(三)——reduceByKey方法

可以将kv型嵌套元组分组，并且根据指定函数进行合并计算:具体例子如下：输出结果：[(‘男’, 187), (‘女’, 165)]单词文件hello.txt 如下：输出结果[(‘itcast’, 4), (‘python’, 6), (‘itheima’, 7), (‘spark’, 4), (‘pyspark’, 3)]
复制链接

扫一扫

专栏目录