spark python入门_Spark入门(Python版)

最新推荐文章于 2022-10-23 16:16:53 发布

weixin_39986435

最新推荐文章于 2022-10-23 16:16:53 发布

阅读量51

点赞数

文章标签： spark python入门

本文链接：https://blog.csdn.net/weixin_39986435/article/details/111440341

版权

Spark

入门(

Python

版)

本文由

伯乐在线

- douxingxiang

翻译，

toolate

校稿。

未经许可，禁止转载！

英文出处：

Benjamin Bengfort

。欢迎加入翻译组。

Hadoop

是

对大数据集进行分布式计算的标准工具，这也是为什么当你

穿过机场时能看到”大数据

(Big Data)

”广告的原因。它已经

成为大数据的操作系统，提供了包括工具和技巧在内的丰富

生态系统，允许使用相对便宜的商业硬件集群进行超级计算

机级别的计算。

2003

和

2004

年，

两个来自

Google

的观点使

Hadoop

成为可能：一个分布式存储框架

(Google

文件系统

)

，

在

Hadoop

中被实现为

HDFS

；一个分布式计算框架

(MapReduce)

。

这两个观点成为过去十年规模分析(

scaling analytics

)

、大规

模机器学习

(

machine learning

)

，

以及其他大数据应用出现的

主要推动力！但是，从技术角度上讲，十年是一段非常长的

时间，

而且

Hadoop

还存在很多已知限制，

尤其是

MapReduce

。

对

MapReduce

编程明显是困难的。

对大多数分析，

你都必须

用很多步骤将

Map

和

Reduce

任务串接起来。这造成类

SQL

的计算或机器学习需要专门的系统来进行。更糟的是，

MapReduce

要求每个步骤间的数据要序列化到磁盘，

这意味

着

MapReduce

作业的

I/O

成本很高，

导致交互分析和迭代算

weixin_39986435

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark python入门_Spark入门(Python版)

Spark入门(Python版)本文由伯乐在线-douxingxiang翻译，toolate校稿。未经许可，禁止转载！英文出处：BenjaminBengfort。欢迎加入翻译组。Hadoop是对大数据集进行分布式计算的标准工具，这也是为什么当你穿过机场时能看到”大数据(BigData)”广告的原因。它已经成为大数据的操作系统，提供了包括工具和技巧在内的丰富生态系统，允许使用相对便宜的商业硬件...
复制链接

扫一扫