spark和python的区别_Spark入门(Python)

最新推荐文章于 2024-05-10 17:21:54 发布

weixin_39934257

最新推荐文章于 2024-05-10 17:21:54 发布

阅读量1.4k

点赞数

文章标签： spark和python的区别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39934257/article/details/111441121

版权

Spark

是第一个脱胎于该转变的快速、

通用分布式计算范式，

并且很快流行起来。

Spark

使用函数式编程范式扩展了

MapReduce

模型以支持更多计算类型，

可以涵

盖广泛的工作流，这些工作流之前被实现为

Hadoop

之上的特殊系统。

Spark

使

用内存缓存来提升性能，因此进行交互式分析也足够快速

(

就如同使用

Python

解释器，

与集群进行交互一样

)

。

缓存同时提升了迭代算法的性能，

这使得

Spark

非常适合数据理论任务，特别是机器学习。

本文中，

我们将首先讨论如何在本地机器上或者

EC2

的集群上设置

Spark

进行简

单分析。然后，我们在入门级水平探索

Spark

，了解

Spark

是什么以及它如何工

作

(希望可以激发更多探索)

。

最后两节我们开始通过命令行与

Spark

进行交互，

然后演示如何用

Python

写

Spark

应用，并作为

Spark

作业提交到集群上。

设置

Spark

在本机设置和运行

Spark

非常简单。

你只需要下载一个预构建的包，

只要你安装

了

Java

6+

和

Python

2.6+

，就可以在

Windows

、

Mac

OS

X

和

Linux

上运行

Spark

。

确保

java

程序在

PATH

环境变量中，或者设置了

JAVA_HOME

环境变量。类似的，

python

也要在

PATH

中。

weixin_39934257

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark和python的区别_Spark入门(Python)

Spark是第一个脱胎于该转变的快速、通用分布式计算范式，并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法的性能，这使得Spark非常适合数据理...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。