spark python入门_Spark入门(Python版)

Spark

入门(

Python

版)

本文由

伯乐在线

- douxingxiang

翻译,

toolate

校稿。

未经许可,禁止转载!

英文出处:

Benjamin Bengfort

。欢迎加入翻译组。

Hadoop

对大数据集进行分布式计算的标准工具,这也是为什么当你

穿过机场时能看到”大数据

(Big Data)

”广告的原因。它已经

成为大数据的操作系统,提供了包括工具和技巧在内的丰富

生态系统,允许使用相对便宜的商业硬件集群进行超级计算

机级别的计算。

2003

2004

年,

两个来自

Google

的观点使

Hadoop

成为可能:一个分布式存储框架

(Google

文件系统

)

Hadoop

中被实现为

HDFS

;一个分布式计算框架

(MapReduce)

这两个观点成为过去十年规模分析(

scaling analytics

)

、大规

模机器学习

(

machine learning

)

以及其他大数据应用出现的

主要推动力!但是,从技术角度上讲,十年是一段非常长的

时间,

而且

Hadoop

还存在很多已知限制,

尤其是

MapReduce

MapReduce

编程明显是困难的。

对大多数分析,

你都必须

用很多步骤将

Map

Reduce

任务串接起来。这造成类

SQL

的计算或机器学习需要专门的系统来进行。更糟的是,

MapReduce

要求每个步骤间的数据要序列化到磁盘,

这意味

MapReduce

作业的

I/O

成本很高,

导致交互分析和迭代算

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值