![](https://i-blog.csdnimg.cn/direct/e077d7d048fd449d9ee161d7f60eb2e5.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
PySpark使用笔记
文章平均质量分 83
在实际开发中使用python中pyspark模块操作spark的日常笔记,及遇到特殊问题的记录与解决。
百流
这个作者很懒,什么都没留下…
展开
-
Pyspark中RDD的基本操作
pyspark中rdd基本操作及演示原创 2024-08-14 23:16:18 · 246 阅读 · 0 评论 -
RDD的概念及Pyspark操作RDD
RDD(弹性分布式数据集)是 PySpark 的基本构建块,它是容错不可变的分布式对象集合。换句话说,RDD 是类似于 Python 中的列表的对象集合,不同之处在于 RDD 是在分散在多个物理服务器上的多个进程上计算的,也称为集群中的节点,而 Python 集合仅在一个进程中存在和处理。一旦你创建了一个 RDD,就不能改变它。RDD是Spark编程中最基本的数据对象, 无论是最初加载的数据集,还是任何中间结果的数据集,或是最终的结果数据集,都是RDD。原创 2024-08-13 17:16:48 · 837 阅读 · 0 评论 -
PySpark操作DataFrame常用方法
python使用pyspark操作dataframe的常用方法原创 2024-08-12 17:01:47 · 1039 阅读 · 0 评论