PySpark实战一之入门

Younger成

已于 2023-02-16 11:15:41 修改

阅读量1.2k

点赞数

文章标签：大数据

于 2023-02-15 17:40:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39243221/article/details/129044968

版权

1、PySpark的编程模型

分三个模块：

数据输入：通过SparkContext对象，完成数据输入

数据处理计算：输入数据后得到RDD对象，对RDD对象的成员方法进行迭代计算

数据输出：最后通过RDD对象的成员方法，完成数据输出，将结果输出到list、元组、字典、文本文件、数据库等

2、如何安装PySpark库

pip install pyspark

注：sprak支持环境变量，通过入参告诉spark，python在哪里

3、为什么要构建SparkContext对象作为执行入口

PySaprk的功能都是从SparkContext对象作为开始入口

4、算子

PySpark的数据计算，都是基于RDD对象来进行的，RDD对象内置丰富的成员方法（算子）

1、map算子

功能：map算子，是将RDD的数据一条条处理（处理的逻辑基于map算子种接收的处理函数），返回新的RDD对于返回值是新RDD的算子，可以通过链式调用的方法多次调用算子

2、flatMap算子

功能：对rdd执行map操作，然后进行解除嵌套操作

func：（T）->U：传入参数有一个，最少一个返回值

func：（V，V）-> V ：接受两个传入参数，返回一个返回值，类型和传入参数一致

3、reduceByKey算子

功能：针对KV型RDD，自动按照key分组，对组内的数据进行两两计算，然后根据你提供的聚合逻辑，完成组内数据的聚合操作

注：reduceByKey中接收的函数，只负责聚合，不理会分组

4 、filter算子

功能：过滤器，接收一个处理函数，用lambda编写

5、distinct算子（无需传参）

功能：对RDD的数据进行去重，返回新的RDD

6、sortBy算子

功能：对RDD数据进行排序，基于你指定的排序一句

rdd.sortBy(func,ascending=False,numPartitions=1)

func:(T)->U :告知rdd中按照哪个进行排序，比如lambda x:x[1],表示按照rdd的第二列元素进行排序

ascending True 升序 False降序

numPartiontions：用多少分区排序

输出数据

7、collect算子

功能：将 RDD各个分区内的数据，统一收集到Driver中，形成一个List对象

用法：rdd.collect(),返回值是一个list

8、reduce算子

功能：对RDD数据集按照你传入的逻辑进行聚合

rdd.reduce()

# func：（T,T）-> T

# 2参数传入 1个返回值，返回值和参数类型要求类型一致

9、take算子

功能：将RDD的前n个元素，组合成list返回

10、count算子

功能：统计RDD元素的个数

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
PySpark实战一之入门

分三个模块：数据输入：通过SparkContext对象，完成数据输入数据处理计算：输入数据后得到RDD对象，对RDD对象的成员方法进行迭代计算数据输出：最后通过RDD对象的成员方法，完成数据输出，将结果输出到list、元组、字典、文本文件、数据库等。
复制链接

扫一扫

Younger成 CSDN认证博客专家 CSDN认证企业博客

码龄7年

214: 原创

5万+: 周排名

21万+: 总排名

33万+: 访问

: 等级

4232: 积分

54: 粉丝

76: 获赞

71: 评论

273: 收藏

私信

关注

分类专栏

最新评论

canal实现mysql同步到clickhouse
喜羊羊love红太狼: Caused by: java.lang.Throwable: Code: 62. DExpected one of: Query, Query with output, EXPLAIN, SELECT query, possibly with UNION, list of union elements, SELECT query, subquery, possibly with UNION, SELECT subquery,SELECT query, WITH, SELECT, SHOW CREATE QUOTA query, SHOW CREATE, SHOW [TEMPORARY] 我的试了好些遍更新，和删除都没有同步成功
canal实现mysql同步到clickhouse
adadssdad: 你这个是一个一个库下的同步，如果是localhost：3306下有多个数据库都需要同步呢这怎么配
python之自动化点餐&定时任务
梦里柯南灬: 姐姐优秀啊，点赞👍🏻
canal实现mysql同步到clickhouse
ascarl2010: 全量同步呢，如何解决
linux下安装keepalived
Younger成: 这样，下次精进一下写作方式，有好的方法也可以共享

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。