《Spark实战(第2版)》翻译于新冠疫情在全世界肆虐之时,可谓“生于忧患”。短短一年半的时间,全世界数不胜数的人感染了新冠肺炎,甚至死在病毒的攻击之下。
古语有云:“殷忧启圣,多难兴邦。”任何事物的发展都是辩证的。纵观人类与病毒纠葛的历史,每次疫情的暴发,都深刻改变了人类文化、经济和军事的发展进程。例如,14
世纪的黑死病
造成了西欧崛起,
15
世纪末美洲天花带来了全球降温,
18
世纪末黄热病结束了法国在海地的殖民
统治,
19
世纪非洲牛瘟加速了欧洲殖民扩张,等等。而本次的新冠大流行依然在蔓延之中,疫苗
的快速研发似乎让人们看到了隧道尽头的曙光,但是由于变异病毒的出现,人类又陷入了各种不确
定之中。
值此鱼游沸鼎之际,身处海外的我,在
YouTube
上观看各路专家、网红对如何防治病毒,以及人类如何与自然共存,议论纷纷,莫衷一是。在各种分析过程中,专家们最常见的做法就是引用各种数据。根据概率论的大数定律,数据量越大,剖分得越细致,所得到的分析结果就越有说说力。
大数据、云计算、人工智能,是当今计算领域发展的三驾马车。云计算为大数据提供了存储和
运算之所,人工智能为云计算提供了算法逻辑,而所有这一切都要建立在
Spark
的大数据处理框架的基础之上。在介绍 Spark
之前回顾集群计算的历史,我们不得不谈谈
MapReduce 和
Hadoop
,如 果没有巨人的肩膀可供站立,Spark
不可能如此成功。
Spark
基于内存计算,整合了内存计算单元,提高了大数据处理的实时性。它兼具高容错性和
可伸缩性,因此相对于
Hadoop
的集群处理方法,
Spark
在性能方面更具优势。从另一角度看,
Spark 可被看作 MapReduce
的一种扩展。在计算的各个阶段,
MapReduce
无法进行有效的资源共享,因此不擅长迭代式、交互式和流式的计算工作。针对这一点,Spark
创造性地引入了
RDD(
弹性分布式数据集)
,实现了计算过程中的资源共享。因为采用了弹性内存分布式数据集,所以
Spark
不仅能提供交互式查询,还可优化迭代工作的负载。
![](https://img-blog.csdnimg.cn/ccad813fa51c4fb78573cb2d3b38f44c.jpeg)
《Spark实战(第2版)》循序渐进地向读者介绍 Spark
的历史渊源和运作原理,并利用各种示例生动展示
Spark
的各种应用。本书面向数据工程师和数据分析师。Spark
的技术繁复庞杂,我们很难在一时之间掌握, 因此读者要时常温故而知新,在实践中学习,在学习中实践,这样循环反复,才能学有所成。
《Spark实战(第2版)》成书于“危难之际”,得到了清华大学出版社的领导和编辑们的信任和鼎力支持。在此,要特别感谢他们的耐心和帮助。在我翻译本书的过程中,就读于西交利物浦大学大数据专业的袁于博同学,也给予了帮助,在此表示感谢。
译者才疏学浅,见闻浅薄,言辞多有不足之处,还望谅解并不吝指正。
林赐
2021
年
10
月
3
日
于加拿大渥太华大学
![](https://img-blog.csdnimg.cn/28baed5b608a41c3af010fbe2762cdf8.png)
想了解更多关于《Spark实战(第2版)》的内容,请点击: