《Spark实战(第2版)》之【Spark 介绍（基于Spark 3.0）】

清图

于 2022-06-02 17:50:46 发布

阅读量740

点赞数

本文链接：https://blog.csdn.net/qinghuawenkang/article/details/125102439

版权

云计算同时被 3 个专栏收录

10 篇文章 1 订阅

订阅专栏

大数据应用

2 篇文章 0 订阅

订阅专栏

spark

1 篇文章 0 订阅

订阅专栏

《Spark实战(第2版)》翻译于新冠疫情在全世界肆虐之时，可谓“生于忧患”。短短一年半的时间，全世界数不胜数的人感染了新冠肺炎，甚至死在病毒的攻击之下。

古语有云：“殷忧启圣，多难兴邦。”任何事物的发展都是辩证的。纵观人类与病毒纠葛的历史，每次疫情的暴发，都深刻改变了人类文化、经济和军事的发展进程。例如，14 世纪的黑死病

造成了西欧崛起， 15 世纪末美洲天花带来了全球降温， 18 世纪末黄热病结束了法国在海地的殖民

统治， 19 世纪非洲牛瘟加速了欧洲殖民扩张，等等。而本次的新冠大流行依然在蔓延之中，疫苗

的快速研发似乎让人们看到了隧道尽头的曙光，但是由于变异病毒的出现，人类又陷入了各种不确

定之中。

值此鱼游沸鼎之际，身处海外的我，在 YouTube 上观看各路专家、网红对如何防治病毒，以及人类如何与自然共存，议论纷纷，莫衷一是。在各种分析过程中，专家们最常见的做法就是引用各种数据。根据概率论的大数定律，数据量越大，剖分得越细致，所得到的分析结果就越有说说力。

大数据、云计算、人工智能，是当今计算领域发展的三驾马车。云计算为大数据提供了存储和

运算之所，人工智能为云计算提供了算法逻辑，而所有这一切都要建立在 Spark 的大数据处理框架的基础之上。在介绍 Spark 之前回顾集群计算的历史，我们不得不谈谈 MapReduce 和 Hadoop ，如果没有巨人的肩膀可供站立，Spark 不可能如此成功。

Spark 基于内存计算，整合了内存计算单元，提高了大数据处理的实时性。它兼具高容错性和

可伸缩性，因此相对于 Hadoop 的集群处理方法， Spark 在性能方面更具优势。从另一角度看， Spark 可被看作 MapReduce 的一种扩展。在计算的各个阶段， MapReduce 无法进行有效的资源共享，因此不擅长迭代式、交互式和流式的计算工作。针对这一点，Spark 创造性地引入了 RDD( 弹性分布式数据集) ，实现了计算过程中的资源共享。因为采用了弹性内存分布式数据集，所以 Spark 不仅能提供交互式查询，还可优化迭代工作的负载。

《Spark实战(第2版)》循序渐进地向读者介绍 Spark 的历史渊源和运作原理，并利用各种示例生动展示 Spark 的各种应用。本书面向数据工程师和数据分析师。Spark 的技术繁复庞杂，我们很难在一时之间掌握，因此读者要时常温故而知新，在实践中学习，在学习中实践，这样循环反复，才能学有所成。

《Spark实战(第2版)》成书于“危难之际”，得到了清华大学出版社的领导和编辑们的信任和鼎力支持。在此，要特别感谢他们的耐心和帮助。在我翻译本书的过程中，就读于西交利物浦大学大数据专业的袁于博同学，也给予了帮助，在此表示感谢。

译者才疏学浅，见闻浅薄，言辞多有不足之处，还望谅解并不吝指正。

林赐

2021 年 10 月 3 日

于加拿大渥太华大学

想了解更多关于《Spark实战(第2版)》的内容，请点击：

《Spark实战（第2版）》([法]吉恩·乔治·佩林（Jean-Georges Perrin）)【摘要书评试读】- 京东图书京东JD.COM图书频道为您提供《Spark实战（第2版）》在线选购，本书作者：，出版社：清华大学出版社。买图书，到京东。网购图书，享受最低优惠折扣!https://item.jd.com/13100155.html

清图

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
《Spark实战(第2版)》之【Spark 介绍（基于Spark 3.0）】

IBM 云和数据平台的高级副总裁Rob Thomas作序推荐的《Spark实战(第2版)》，基于Spark 3.0，循序渐进地向读者介绍 Spark 的历史渊源和运作原理，并利用各种示例生动展示 Spark 的各种应用。
复制链接

扫一扫