Spark
入门(
Python
版)
本文由
伯乐在线
- douxingxiang
翻译,
toolate
校稿。
未经许可,禁止转载!
英文出处:
Benjamin Bengfort
。欢迎加入翻译组。
Hadoop
是
对大数据集进行分布式计算的标准工具,这也是为什么当你
穿过机场时能看到”大数据
(Big Data)
”广告的原因。它已经
成为大数据的操作系统,提供了包括工具和技巧在内的丰富
生态系统,允许使用相对便宜的商业硬件集群进行超级计算
机级别的计算。
2003
和
2004
年,
两个来自
的观点使
Hadoop
成为可能:一个分布式存储框架
文件系统
)
,
在
Hadoop
中被实现为
HDFS
;一个分布式计算框架
(MapReduce)
。
这两个观点成为过去十年规模分析(
scaling analytics
)
、大规
模机器学习
(
machine learning
)
,
以及其他大数据应用出现的
主要推动力!但是,从技术角度上讲,十年是一段非常长的
时间,
而且
Hadoop
还存在很多已知限制,
尤其是
MapReduce
。
对
MapReduce
编程明显是困难的。
对大多数分析,
你都必须
用很多步骤将
Map
和
Reduce
任务串接起来。这造成类
SQL
的计算或机器学习需要专门的系统来进行。更糟的是,
MapReduce
要求每个步骤间的数据要序列化到磁盘,
这意味
着
MapReduce
作业的
I/O
成本很高,
导致交互分析和迭代算