Pyspark基础

最新推荐文章于 2025-01-18 12:19:59 发布

笑着找bug

最新推荐文章于 2025-01-18 12:19:59 发布

阅读量239

点赞数

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/K_Programmer/article/details/118195521

版权

Spark

Spark是一个框架，可以采用并行处理的方式高速应对海量数据，是一种健壮的机制
底层采用RDD（弹性分布式数据集），在执行处理期间，数据结构具有重建任意时点数据流的能力
RDD会使用最后一个时点的数据流创建一个新的RDD,出现错误也拥有重构的能力
分布式框架，基于主节点和工作结点的设置来运行，代码写在Spark驱动程序上，然后共享到实际留存数据的各个工作结点，他们将实际执行代码

Spark Core

Spark Core 是 Spark 最基础的组成部分，使得驱动并行和分布式数据处理的内存中计算成为可能
Spark Core 负责任务管理、I/O操作、容错以及内存管理等

Spark组件

Spark SQL：应对结构化数据处理，可看作一个分布式SQL查询引擎
Spark Streaming：以一种可伸缩且可容错的方式处理实时的流式数据，使用小批量处理方式
Spark MLlib：用于以分布式构建基于大数据的机器学习模型，大部分算法实现用于分类、回归分析、聚类分析、推荐系统和自然语言处理
Spark Graphx：用于图形分析领域、图形并行化执行方面

环境配置

Anaconda（python3）
Java8
Spark 3.1（Windows 需要winutis.exe)
配完忘了
随便找的，不确定可行，建议自己找

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。