Spark介绍

最新推荐文章于 2024-07-20 22:06:32 发布

盘古开智

最新推荐文章于 2024-07-20 22:06:32 发布

阅读量239

点赞数

分类专栏： spark 文章标签： spark big data python

原文链接：http://spark.apache.org/docs/latest/api/python/#

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

PySpark 是Apache Spark的Python接口。它不但允许你用Python API写Spark应用，而且也提供了Pyaprk Shell在分布式环境中交互式分析你的数据.PySpark支持大多数Spark功能如Spark SQL,DataFrame,Streaming,Mlib(机器学习)和Spark Core.

PySpark Components

Spark SQL 和 DataFrame

Spark SQL是Spark结构化数据处理模块.它提供了抽象编程的DataFrame和能充当分布式SQL查询引擎。

Spark 上的 pandas API

Spark上的pandas API允许你扩大pandas数据处理工作量。通过这个包，你能够：

如果你已经熟悉pandas,使用Spark立即提升生产力，没有学习曲线。
拥有一个既适用于 Pandas（测试，较小的数据集）又适用于 Spark（分布式数据集）的代码库。
在pandas API和Pyspark API环境中，可以简单和没有任何负担的切换。

Streaming

Apache Spark 中的流功能运行在 Spark 之上，支持跨流数据和历史数据的强大交互和分析应用程序，同时继承Spark易用和容错特性。

MLlib

机器学习库运行在 Spark 之上，MLlib是可扩展的机器学习库，提供了一组统一的高级API,可帮助用户创建和调整实用机器学习管道。

Spark Core

Spark Core 是 Spark平台底层通用执行引擎，所有功能都建立在其之上，它提供了RDD（弹性分布式数据集）和内存计算能力。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark介绍

PySpark 是Apache Spark的Python接口。它不但允许你用Python API写Spark应用，而且也提供了Pyaprk Shell在分布式环境中交互式分析你的数据.PySpark支持大多数Spark功能如Spark SQL,DataFrame,Streaming,Mlib(机器学习)和Spark Core.Spark SQL 和 DataFrameSpark SQL是Spark结构化数据处理模块.它提供了抽象编程的DataFrame和能充当分布式SQL查询引擎。Spark 上的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。