pyspark(二)——pyspark的语法

最新推荐文章于 2024-07-20 00:19:29 发布

starry0001

最新推荐文章于 2024-07-20 00:19:29 发布

阅读量1.2k

点赞数 3

分类专栏： spark 文章标签： spark 大数据 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39158406/article/details/114803016

版权

spark 专栏收录该内容

2 篇文章 1 订阅

订阅专栏

pyspark(二)——pyspark的语法

原创 Starry ChallengeHub 公众号

pyspark(二)——pyspark的语法

这是pyspark学习的第二章，上节中我们已经介绍了pyspark的安装与简单的语法，本篇文章也是pyspark语法的介绍，给大家更加详细的介绍pyspark的数据处理。废话不多说，现在就开始吧。

一：聚合操作

一：groupby

groupby就是分类聚合操作，在结构化的数据处理中是非常常见的操作，那么在pyspark中是怎么操作的呢？

分组后排序,根据每组中数据的个数进行排序：

当然除了count之外还有max,min,sum等操作

采用alias将avg('I2')重命名。

二：collect

collect中有collect_list和collect_set，前后就是将某个字段的数据形成一个list，后者就是形成一个set。

如果要将...后面的显示清楚，可以在show()中输入truncate =False，collect_set(I8)的数据是去重后的。

采用collect_list表示不去重。

二：其它操作

一：自定义函数(UDF)

UDF就是用户自己定义函数，下面就是一个简单的例子：

与Python UDF相比，Pandas UDF速度更快，主要是因为前后是按行处理，后者是按照块处理，能够更好地利用分布式的特性。使用方法和Pandas和UDF一样，如下所示。

但是，意外的是，出现了如下的bug，按照提示安装好库之后。

于是又有了新的bug，查询了一些原因之后，发现是没有安装hadoop的原因。于是安装hadoop，具体的安装链接如下，注意的是安装3.0.0 必须要用Java 8。https://blog.csdn.net/songhaifengshuaige/article/details/79575308(安装过程中如果出现了什么疑问可以直接咨询。)

二：Join

join操作就是表连接，在sql，pandas里面相信大家也都见识过了，这里我们来介绍下pyspark中的用法。

首先创建一个新的表：

然后使用join函数就可以啦。

三：Pivoting

熟悉数据分析的人肯定会经常用到透视表，在pyspark中也可以做透视表，具体的方法如下所示：

四：Window Functions

有时候我们会需要一些分区操作，或者一些Rank操作，比如计算一列的Rank，或者分类之后计算Rank等。接下来我们就介绍这类操作。

上图的操作是根据I2倒排，然后根据排序位次生成一个Rank字段。

与上文的相比，这里通过I8进行分区，然后再对I2进行排序，最后生成排序的结果。

我们知道除了十二星座外，还有NULL，因此是13给分区，每个分区都有一个rank=1的数据。有时候我们需要选取每个分区的Top数据，因此可以通过这种方式选取。

这次有关于Pyspark语法的操作就到这里结束了，下节内容是Pyspark流式数据处理(Spark Structured Streaming)。敬请期待。

欢迎任何对数据分析，数据挖掘的各位加入QQ群一起学习讨论。(关注公众号：ChallengeHub一起学习)

如果群号过期，可添加以下的微信号私聊。

参考资料：learn pyspark

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
pyspark(二)——pyspark的语法

pyspark(二)——pyspark的语法原创StarryChallengeHub公众号pyspark(二)——pyspark的语法这是pyspark学习的第二章，上节中我们已经介绍了pyspark的安装与简单的语法，本篇文章也是pyspark语法的介绍，给大家更加详细的介绍pyspark的数据处理。废话不多说，现在就开始吧。一：聚合操作一：groupby groupby就是分类聚合操作，在结构化的数据处理中是非常常见的操作，那么在pyspar...
复制链接

扫一扫

专栏目录

starry0001 CSDN认证博客专家 CSDN认证企业博客

码龄7年

34: 原创

39万+: 周排名

164万+: 总排名

6万+: 访问

: 等级

538: 积分

41: 粉丝

51: 获赞

42: 评论

379: 收藏

私信

关注

热门文章

分类专栏

特征交叉 3篇
Python 15篇
特征工程 2篇
机器学习 6篇
梧桐杯竞赛 1篇
灵魂拷问 2篇
spark 2篇
数据可视化 1篇
TensorFlow 5篇
NLP 3篇
问答匹配 2篇
GAN 1篇
最优化 2篇
Bert
EDA 1篇
Leetcode 1篇
MATLAB 1篇

最新评论

万字详述推荐系统经典模型DCN,DCN_v2,PNN
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客对推荐系统经典模型DCN,DCN_v2,PNN进行了详细介绍，让我受益匪浅。我觉得下一篇博客可以从实践角度来探讨DCN,DCN_v2,PNN在推荐场景中的应用，比如如何基于DCN_v2来进行广告推荐、如何基于PNN来进行商品推荐等等。这样的技术文章对其他用户也会有很大的帮助。期待你的下一篇博客，相信会有更多读者受益于你的分享。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
如何采用FM进行召回
yingzoe: FM召回中用到的用户和item的交叉类特征可以举个例子吗？这里有点难理解，什么叫是否含有相同的tag类特征？然后后面又说在精排模型中用到交叉类特征，在召回模型中不能出现，那FM召回模型中到底有没有这类特征呀？
CCF2020企业非法集资风险预测-季军方案
LIZH554: 你是怎么处理的呀，如果所有表都用，但是那些副表的数据又缺失非常多，咋办呀
CCF2020企业非法集资风险预测-季军方案
weixin_58320795: 还有数据集吗
CPLEX 在matlab中实现的一个例子-RCPSP
starry0001: 没有，官方也没有的。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。