spark和python的区别_Spark入门(Python)

Spark

是第一个脱胎于该转变的快速、

通用分布式计算范式,

并且很快流行起来。

Spark

使用函数式编程范式扩展了

MapReduce

模型以支持更多计算类型,

可以涵

盖广泛的工作流,这些工作流之前被实现为

Hadoop

之上的特殊系统。

Spark

使

用内存缓存来提升性能,因此进行交互式分析也足够快速

(

就如同使用

Python

解释器,

与集群进行交互一样

)

缓存同时提升了迭代算法的性能,

这使得

Spark

非常适合数据理论任务,特别是机器学习。

本文中,

我们将首先讨论如何在本地机器上或者

EC2

的集群上设置

Spark

进行简

单分析。然后,我们在入门级水平探索

Spark

,了解

Spark

是什么以及它如何工

(希望可以激发更多探索)

最后两节我们开始通过命令行与

Spark

进行交互,

然后演示如何用

Python

Spark

应用,并作为

Spark

作业提交到集群上。

设置

Spark

在本机设置和运行

Spark

非常简单。

你只需要下载一个预构建的包,

只要你安装

Java

6+

Python

2.6+

,就可以在

Windows

Mac

OS

X

Linux

上运行

Spark

确保

java

程序在

PATH

环境变量中,或者设置了

JAVA_HOME

环境变量。类似的,

python

也要在

PATH

中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值