全球最大的Spark+AI峰会发放优惠码SAIS20TRAIN，培训费优惠20%！

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/106792945

Spark AI 峰会现在对于数据团队来说规模更大了，提供的培训课程是原来的四倍！使用优惠码SAIS20TRAIN可享受20%的折扣培训，用于学习热门开源项目如Apache Spark、DeltaLake、MLflow和Koalas的前沿技术。

Databricks全球最大的Spark+AI峰会

免费参加主题演讲及分组会议

免费参加全球最大的Spark+AI峰会（Databricks 2020年6月22-26日）！免费访问峰会主题演讲及分组会议！

Spark + AI 2020峰会现在是虚拟和免费的!六月22-26日即将到来，激动人心！更多主题、更多演讲者、更多的训练，全世界上更多的数据社区将比以往任何时候都要参加Spark+AI 峰会！
免费参加峰会详情

参加付费培训，领取优惠码SAIS20TRAIN

全球最大的Spark+AI峰会发放优惠码SAIS20TRAIN，培训费优惠20%！

领取优惠码： SAIS20TRAIN

在这里插入图片描述
Spark + AI 2020峰会将进行一系列会前培训研讨会，包括培训指导和实践练习，以帮助提高Apache Spark™和数据工程技能。培训课程包括：

管理人员统一数据分析入门

角色:商业领袖
时长:半天
在本课程将回顾大数据的基本概念，了解Databricks，探索实现真正的人工智能，并深入研究如何使用统一数据分析平台的组件来克服挑战。

先决条件:不需要编程经验
联系Databricks帐户代表，获取注册代码

Delta数据湖简介

角色:业务主管、平台管理员、SQL分析师、数据工程师、数据科学家
时长:半天
本课程将了解什么是 Delta数据湖，它如何简化和优化数据架构，以及数据管道工程，将深入探讨 Delta数据湖的核心特性，以及它们如何为数据湖带来可靠性、性能和生命周期管理。
先决条件:不需要编程经验

Databricks 管理

角色:平台管理员
持续时间:半天
在本课程中，学习管理和安全管理数据库工作区的最佳实践。将指导您使用管理控制台管理用户和工作区存储，为工作区、集群、池和作业配置访问控制，并应用集群配置策略和使用管理特性，以便在不同场景中最大化可用性和成本效益。然后，将介绍数据保护特性，并使用Databricks最佳实践配置数据访问控制。及将描述Databricks平台架构和部署模型，以及每个模型的网络安全和遵从性特性。
先决条件:不需要编程经验

Apache Spark™编程介绍

角色:数据工程师、数据科学家
时间:半天
探索DataFrame API核心组件的案例，研究学习Spark编程的基础知识。您将读取和写入各种数据源，通过正确的模式及解析不同数据类型对数据进行预处理，并应用各种DataFrame转换和操作来实现业务。本课程旨在提供基本的概念和技能，这个课程是用Python/Scala讲解的。
先决条件:不需要使用Apache Spark的经验
基本熟悉Python或Scala编程

Databricks SQL

角色:SQL分析师
持续时间:半天
学习如何在数据库上利用SQL来轻松地发现关于大数据的见解。Databricks工作区提供了一个强大的数据处理环境，数据专业人员可以在其中遵循传统的数据分析工作流，包括探索、可视化和准备数据。本课程让你开始使用Databricks的功能来获得对数据的可共享的见解。本课程仅使用SQL语言讲授。
先决条件:不需要使用Apache Spark的经验
基本熟悉ANSI SQL

Apache Spark调优和最佳实践

角色:数据工程师
时间:半天
学习和实现在诊断和修复各种性能问题时进行调优的最佳实践。通过应用所学到的最佳实践，您将完成有指导的编码挑战并重构现有代码以提高整体性能。这个课程用Python/Scala讲解。
先决条件:
6个月以上使用Spark DataFrame API的经验
有Python或Scala的中级编程经验

使用Delta Lake为Apache Spark构建更好的数据管道

角色:数据工程师
时间:半天
了解如何在数据库上使用Apache Spark和Delta Lake构建健壮的数据管道，执行ETL、数据清理和数据聚合。Delta Lake旨在克服与传统数据湖管道相关的许多问题。
先决条件:
6个月以上使用Spark DataFrame API的经验
中级编程经验

Databricks Structured Streaming

角色:数据工程师
时间:半天
了解如何使用结构化流从文件和发布者-订阅系统摄取数据。您将学习流系统的基础知识，如何读、写和显示流数据，以及如何在Databricks Delta中使用结构化流。然后将使用发布-订阅系统来处理数据及可视化。本课程用Python和Scala讲解。
先决条件:
DataFrames API的初学者体验
有Python或Scala的中级编程经验

Apache Spark 机器学习和数据科学

角色:数据科学家
时间:半天
本课程着重于使用Spark进行分布式机器学习。学生们将使用MLlib构建和评估管道，理解单节点和分布式ML之间的区别，并对大规模超参数调优进行优化。本课用Python和Scala讲解。
先决条件:
有Python或Scala的中级编程经验
DataFrame API的初学者体验
基本了解机器学习的概念

使用TensorFlow和Apache Spark扩展深度学习

角色:数据科学家
时间:半天
本课程提供了一个全面的概述，如何扩大训练和部署的神经网络与Apache Spark。我们通过TensorFlow指导学生构建深度学习模型，通过MLflow使用Spark udf执行分布式推理，并使用Horovod训练跨集群的分布式模型。本课程完全用Python语言讲授。
先决条件:
有Python和PySpark编程经验
基本了解机器学习的概念
有Keras/TensorFlow经验者优先

强化学习导论

角色:数据科学家
时间:半天
在本课程中，将学习强化学习理论，并获得实践。完成本课程后，您将了解监督、非监督、强化学习之间的区别，并了解马尔可夫决策过程(MDPs)和动态规划。您将能够制定一个强化学习问题，并在Python中实现策略评估、策略迭代和值迭代算法(使用动态编程)。本课程完全用Python语言讲授。
先决条件:
有Python高级编程构造的经验(例如，编写类，扩展类等)
有监督和非监督学习的实践经验
了解概率论和线性代数

无模型强化学习

角色:数据科学家
时间:半天
在本课程中，您将学习无模型强化学习理论并获得实践。您将能够制定一个强化学习问题，并实现无模型的强化学习算法。为预测和控制任务实现蒙特卡罗、TD和Sarsa算法。本课程完全用Python语言讲授。
先决条件:
有Python高级编程构造的经验(例如，编写类，扩展类等)
有监督和非监督学习的实践经验
了解概率论和线性代数
熟悉动态编程和马尔可夫决策过程
有Open AI 的工作经验
强化学习或同等的经验

MLflow:管理机器学习生命周期

角色:数据科学家和数据工程师
时间:半天
在这个实践课程中，数据科学家和数据工程师学习管理实验、项目、模型和使用MLflow生产模型注册表的最佳实践。在本课程结束时，您将已经建立了一个管道来训练、注册和部署机器学习模型。本课程完全使用Python语言讲授，并与机器学习部署课程配合。
先决条件:
使用Python编程的经验
有ML概念的应用知识

机器学习部署:3个模型部署范例、监视和警报

角色:数据科学家和数据工程师
时间:半天
在这个实践课程中，数据科学家和数据工程师学习在以下范例中部署机器学习模型的最佳实践:批处理、流媒体和使用REST。探讨了在部署机器学习解决方案时所面临的常见生产问题，并在这些模型部署到生产环境后对其进行监视。在本课程结束时，您将构建在各种部署场景中部署和监控机器学习模型的基础设施。本课程完全用Python语言讲授，与MLflow课程配合。
先决条件:
使用Python编程的经验
有ML概念的应用知识

Apache SparkR/sparklyr中的分布式机器学习

角色:数据科学家
时间:半天
在本课程中，将学习如何使用SparkR和sparklyr在分布式环境中应用机器学习技术。将学习Spark架构、Spark DataFrame api、构建ML模型以及执行超参数调优和管道优化。该课程结合了讲课、演示和实践实验。本课程全部在R课程中讲授。
先决条件:
R编程经验

大规模的自然语言处理

角色:数据科学家
时间:半天
本课程将讲解自然语言处理(NLP)的基础知识以及如何大规模地使用它。您将通过应用预先训练好的单词嵌入、为数据集生成 TFIDF向量以及使用降维技术等等，解决分类、情感分析任务。本课程完全用Python语言讲授。
先决条件:
使用Python编程的经验

财务的实际问题解决:使用Apache Spark进行实时数据分析

角色:数据工程师、数据科学家
时间:半天
在这个半天的课程中，您将学习Databricks和Spark如何帮助解决使用财务数据时所面临的实际问题。您将学习如何处理脏数据，以及如何开始结构化流实时分析。本课用Python和Scala同时讲解。
先决条件:
对DataFrames API有中级经验的初学者
具有Python或Scala的中级到高级编程经验

零售中的实际问题解决:使用Apache Spark进行实时数据分析

角色:数据工程师、数据科学家
时间:半天
在这个半天的课程中，您将了解Databricks和Spark如何帮助您解决在处理零售数据时所面临的实际问题。您将学习如何处理脏数据，并开始结构化流实时分析。本课用Python和Scala同时讲解。
先决条件:
对DataFrames API有中级经验的初学者
具有Python或Scala的中级到高级编程经验

医疗保健中的实际问题解决:使用Apache Spark进行实时数据分析

角色:数据工程师、数据科学家
时间:半天
在这个半天的课程中，您将了解Databricks和Spark如何帮助您解决使用医疗保健数据时所面临的实际问题。您将学习如何处理脏数据，并开始结构化流实时分析。本课用Python和Scala同时讲解。
先决条件:
对DataFrames API有中级经验的初学者
具有Python或Scala的中级到高级编程经验

制造业中的实际问题解决:使用Apache Spark进行实时数据分析

角色:数据工程师、数据科学家
时间:半天
在这个半天的课程中，学生将学习Databricks和Spark如何帮助解决您在使用制造数据时所面临的实际问题。学生们将学习如何处理脏数据，并开始学习结构化流实时分析。本课用Python和Scala同时讲解。
先决条件:
对DataFrames API有中级经验的初学者
具有Python或Scala的中级到高级编程经验

认证 :Databricks认证的Apache Spark 2.4 开发人员

角色:数据工程师、数据科学家
时间:半天
在这个半天的课程中，学生将熟悉Databricks认证的Apache Spark 2.4 开发人员考试的格式和准备技巧。将回顾考试中涵盖了DataFrame API和Spark架构的哪些部分，以及需要准备考试的技能。
先决条件:
有使用Python或Scala的DataFrames API的中级经验

Apache Spark 3.0有什么新特性?

角色:SQL分析师、数据工程师、数据科学家
持续时间:90分钟
本课程涵盖了Spark 3.0中的新特性。它主要关注性能、监视、可用性、稳定性、可扩展性、PySpark和SparkR的更新。还将学习与Spark 2.0的向后兼容，及更新到Spark 3.0所需的注意事项。

先决条件:
熟悉Apache Spark 2.x

关于培训的更多信息

Spark 大数据商业实战第二版新书发布

《Spark大数据商业实战三部曲》第二版购书链接
在这里插入图片描述

编辑推荐

基于最新的Spark2.4.X版本，分为内核解密篇，商业案例篇，性能调优篇和Spark+AI解密篇，共32章，学习过程中有任何疑问，可加入QQ群418110145，有专业人员答疑解惑。

内容简介

在大数据和AI紧密协同时代，最佳的AI系统依赖海量数据才能构建出高度复杂的模型，海量数据需要借助Al才能挖掘出终极价值。本书以数据智能为灵魂，以Spark 2.4.X版本为载体，以Spark+ AI商业案例实战和生产环境下几乎所有类型的性能调优为核心，对企业生产环境下的Spark+AI商业案例与性能调优抽丝剥茧地进行剖析。全书共分4篇，内核解密篇基于Spark源码，从一个实战案例入手，循序渐进地全面解析Spark 2.4.X版本的新特性及Spark内核源码;商业案例篇选取Spark开发中最具代表性的经典学习案例，在案例中综合介绍Spark的大数据技术;性能调优篇覆盖Spark在生产环境下的所有调优技术; Spark+ AI内幕解密篇讲解深度学习动手实践，通过整合Spark、PyTorch以及TensorFlow揭秘Spark上的深度学习内幕。
本书适合所有大数据和人工智能学习者及从业人员使用。对于有丰富大数据和AI应用经验的人员，本书也可以作为大数据和AI高手修炼的参考用书。同时，本书也特别适合作为高等院校的大数据和人工智能教材。

作者简介

王家林，Apache Spark执牛耳者现工作于硅谷的AI实验室，专注于NLP框架超过20本Spark、Al、Android书籍作者Toastmasters International Division Director GRE博士入学考试连续两次满分获得者
　　
段智华，就职于中国电信股份有限公司上海分公司，系统架构师，CSDN博客专家，专注于Spark大数据技术研发及推广，跟随Spark核心源码技术的发展，深入研究Spark 2.1.1版本及Spark 2.4.0版本的源码优化，对Spark大数据处理、机器学习等技术有丰富的实战经验和浓厚兴趣。

新书目录

第1篇内核解密篇
第1章电光石火间体验Spark 2．4 开发实战
1．1 通过RDD实战电影点评系统入门及源码阅读
1．1．1 Spark核心概念图解
1．1．2 通过RDD实战电影点评系统案例
1．2 通过DataFrame和DataSet实战电影点评系统
1．2．1 通过DataFrame实战电影点评系统案例
1．2．2 通过DataSet实战电影点评系统案例
1．3 Spark2．4 源码阅读环境搭建及源码阅读体验
第2章 Spark 2．4 技术及原理
2．1 Spark 2．4 综述
2．1．1 连续应用程序
2．1．2 新的API
2．2 Spark 2．4 Core
2．2．1 第二代Tungsten引擎
2．2．2 SparkSession
2．2．3 累加器API
2．3 Spark 2．4 SQL
2．3．1 Spark SQL
2．3．2 DataFrame和Dataset API
2．3．3 Timed Window
2．4 Spark 2．4 Streaming
2．4．1 Structured Streaming
2．4．2 增量输出模式
2．5 Spark 2．4 MLlib
2．5．1 基于DataFrame的Machine Learning API
2．5．2 R的分布式算法
2．6 Spark 2．4 GraphX
第3章 Spark的灵魂：RDD和DataSet
3．1 为什么说RDD和DataSet是Spark的灵魂
3．1．1 RDD的定义及五大特性剖析
3．1．2 DataSet的定义及内部机制剖析
3．2 RDD弹性特性7个方面解析
3．3 RDD依赖关系
3．3．1 窄依赖解析
3．3．2 宽依赖解析
3．4 解析Spark中的DAG逻辑视图
3．4．1 DAG生成的机制
3．4．2 DAG逻辑视图解析
3．5 RDD内部的计算机制
3．5．1 Task解析
3．5．2 计算过程深度解析
3．6 SparkRDD容错原理及其四大核心要点解析
3．6．1 Spark RDD容错原理
3．6．2 RDD容错的四大核心要点
3．7 SparkRDD中Runtime流程解析
3．7．1 Runtime架构图
3．7．2 生命周期
3．8 通过WordCount实战解析Spark RDD内部机制
3．8．1 Spark WordCount动手实践
3．8．2 解析RDD生成的内部机制
3．9 基于DataSet的代码如何转化为RDD
第4章 Spark Driver启动内幕剖析
4．1 Spark Driver Program剖析
4．1．1 Spark Driver Program
4．1．2 SparkContext深度剖析
4．1．3 SparkContext源码解析
4．2 DAGScheduler解析
4．2．1 DAG的定义
4．2．2 DAG的实例化
4．2．3 DAGScheduler划分Stage的原理
4．2．4 DAGScheduler划分Stage的具体算法
4．2．5 Stage内部Task获取最佳位置的算法
4．3 TaskScheduler解析
4．3．1 TaskScheduler原理剖析
4．3．2 TaskScheduler源码解析
4．4 SchedulerBackend解析
4．4．1 SchedulerBackend原理剖析
4．4．2 SchedulerBackend源码解析
4．4．3 Spark程序的注册机制
……

第2篇商业案例篇
第3篇性能调优篇
第4篇 Spark+AI解密篇

第二版前言

2019年 4月，在美国旧金山举办的 Spark+AI峰会提出，大数据和人工智能需要统一，人工智能应用需要大量的、不断更新的训练数据来构建先进的模型。到目前为止， Apache Spark是唯一一个将大规模数据处理与机器学习和人工智能算法完美结合的引擎。
　　Apache Spark是大数据领域的通用计算平台。在 Full Stack思想的指导下， Spark中的 Spark SQL、Spark Streaming、MLLib、GraphX、R五大子框架和库之间可以无缝地共享数据和操作，这不仅形成了 Spark在当今大数据计算领域其他计算框架无可匹敌的优势，而且使其加速成为大数据处理中心首选的通用计算平台。
　　回顾 Spark的历史可以发现，在任何规模的数据计算中， Spark在性能和扩展性上都更具优势。
　　Hadoop之父 Doug Cutting指出：大数据项目的 MapReduce引擎的使用将下降，由 Apache Spark取代。
　　Hadoop商业发行版本的市场领导者 Cloudera、HortonWorks、MapR纷纷转投 Spark，并把 Spark作为大数据解决方案的首选和核心计算引擎。
　　在 2014年的 Sort Benchmark测试中，Spark秒杀 Hadoop，在使用其十分之一计算资源的情况下，对相同数据的排序， Spark比 MapReduce快 3倍。在没有官方千万亿字节（ PB）排序对比的情况下，首次利用 Spark对 1PB数据（ 10万亿条记录）排序，在使用 190个节点的情况下，工作负载在 4小时内完成，同样远超雅虎之前使用 3800台主机耗时 16小时的记录。
　　2015年 6月，Spark最大的集群—— 8000个节点来自腾讯，单个最大 Job——1PB来自阿里巴巴和 Databricks。
　　IBM公司于 2015年 6月承诺大力推进 Apache Spark项目，并称该项目为以数据为主导的、未来 10年最重要的、新的开源项目。
　　2016年，在有“计算界奥运会”之称的国际著名 Sort Benchmark全球数据排序大赛中，由南京大学计算机科学与技术系 PASA大数据实验室、阿里巴巴和 Databricks公司组成的参赛团队 NADSort，使用 Apache Spark大数据计算平台，以 144美元的成本完成了 100TB标准数据集的排序处理，创下了每万亿字节（ TB）数据排序 1.44美元成本的世界纪录。
　　2017年，Spark Structured streaming发布无缝整合流处理和其他计算范式。
　　2018年，Spark 2.4.0发布，成为全球最大的开源项目。
　　2019年，任何个人和组织都可以基于 Spark打造符合自己需求的基于大数据的 AI全生态链计算引擎。
　　本书以 Spark 2.4.3为基础，在第 1版的基础上根据 Spark的新版本全面更新源码，并以 TensorFlow和 PyTorch为核心，大幅度增加人工智能的内容及相应的实战案例。本书以 Spark内核解密为基石，分为内核解密篇、商业案例篇、性能调优篇和 Spark+AI内幕解密篇。虽然本书的内容增加了一篇，为了更好地与第 1版延续，仍沿用三部曲的书名。
　　（1）内核解密篇。第 1版基于 Spark 2.2.X版本源码，从一个动手实战案例入手，循序渐进地全面解析了 Spark 新特性及 Spark内核源码。第 2版在第 1版的基础上，将 Spark 2.2.X
　　源码更新为 Spark 2.4.X源码，并对源码的版本更新做了详细解读，帮助读者学习 Spark源码框架的演进及发展。
　　（2）商业案例篇。沿用第 1版的案例内容，选取 Spark开发中最具代表性的经典学习案例，深入浅出地介绍综合应用 Spark的大数据技术。
　　（3）性能调优篇。第 1版基于 Spark 2.2.X源码，基本完全覆盖了 Spark在生产环境下的所有调优技术；第 2版在第 1版的基础上，将 Spark 2.2.X源码更新为 Spark 2.4.X源码，基于 Spark 2.4.X版本讲解 Spark性能调优的内容。
　　（4）Spark+AI内幕解密篇。本篇是第 2版的全新内容，大幅度增加大数据在人工智能领域的应用内容，包括深度学习动手实践：人工智能下的深度学习、深度学习数据预处理、单节点深度学习训练、分布式深度学习训练； Spark+PyTorch案例实战： PyTorch在 Spark上的安装、使用 PyTorch实战图像识别、 PyTorch性能调优最佳实践； Spark+TensorFlow实战： TensorFlow在 Spark上的安装、 TensorBoard解密、 Spark TensorFlow的数据转换； Spark上的深度学习内核解密：使用 TensorFlow进行图片的分布式处理、数据模型源码剖析、逻辑节点源码剖析、构建索引源码剖析、深度学习下 Spark作业源码剖析、性能调优最佳实践。
　　在阅读本书的过程中，如发现任何问题或有任何疑问，可以加入本书的阅读群（QQ： 418110145）讨论，会有专人答疑。同时，该群也会提供本书所用案例源码及本书的配套学习视频。作者的新浪微博是 http：//weibo.com/ilovepains/，欢迎大家在微博上与作者进行互动。
　　由于时间仓促，书中难免存在不妥之处，请读者谅解，并提出宝贵意见。
　　王家林 2020年 4月于美国硅谷

第一版前言

大数据像当年的石油、人工智能（ Artificial Intelligence），像当年的电力一样，正以前所未有的广度和深度影响所有的行业，现在及未来公司的核心壁垒是数据，核心竞争力来自基于大数据的人工智能的竞争。 Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台， 2009年诞生于美国加州大学伯克利分校 AMP实验室，2010年正式开源， 2013年成为 Apache基金项目， 2014年成为 Apache基金的顶级项目。基于 RDD，Spark成功构建起了一体化、多元化的大数据处理体系。
　　在任何规模的数据计算中， Spark在性能和扩展性上都更具优势。
　　（1）Hadoop之父 Doug Cutting指出：Use of MapReduce engine for Big Data projects will decline， replaced by Apache Spark（大数据项目的 MapReduce引擎的使用将下降，由 Apache Spark取代）。
　　（2）Hadoop商业发行版本的市场领导者 Cloudera、HortonWorks、MapR纷纷转投 Spark，并把 Spark作为大数据解决方案的首选和核心计算引擎。
　　2014年的 Sort Benchmark测试中，Spark秒杀 Hadoop，在使用十分之一计算资源的情况下，相同数据的排序上， Spark比 MapReduce快 3倍！在没有官方千万亿字节（ PB）排序对比的情况下，首次将 Spark推到了 1PB数据（ 10万亿条记录）的排序，在使用 190个节点的情况下，工作负载在 4小时内完成，同样远超雅虎之前使用 3800台主机耗时 16个小时的记录。
　　2015年 6月，Spark最大的集群—— 8000个节点来自腾讯，单个 Job——1PB最大分别是阿里巴巴和 Databricks，震撼人心！同时， Spark的 Contributor比 2014年涨了 3倍，达到 730人；总代码行数也比 2014年涨了 2倍多，达到 40万行。IBM于 2015年 6月承诺大力推进 Apache Spark项目，并称该项目为：以数据为主导的，未来十年最重要的新的开源项目。
　　这一承诺的核心是将 Spark嵌入 IBM业内领先的分析和商务平台，并将 Spark作为一项服务，在 IBMBluemix平台上提供给客户。 IBM还将投入超过 3500名研究和开发人员在全球 10余个实验室开展与 Spark相关的项目，并将为 Spark开源生态系统无偿提供突破性的机器学习技术——IBM SystemML。同时，IBM还将培养超过 100万名 Spark数据科学家和数据工程师。
　　2016年，在有“计算界奥运会”之称的国际著名 Sort Benchmark 全球数据排序大赛中，
　　由南京大学计算机科学与技术系 PASA大数据实验室、阿里巴巴和 Databricks公司组成的参赛团队 NADSort，以 144美元的成本完成 100TB标准数据集的排序处理，创下了每万亿字节（TB）数据排序 1.44美元成本的最新世界纪录，比 2014年夺得冠军的加州大学圣地亚哥分校 TritonSort团队每万亿字节数据 4.51美元的成本降低了近 70%，而这次比赛依旧使用 Apache Spark大数据计算平台，在大规模并行排序算法以及 Spark系统底层进行了大量的优化，以尽
　　可能提高排序计算性能并降低存储资源开销，确保最终赢得比赛。
　　在 Full Stack理想的指引下， Spark中的 Spark SQL、SparkStreaming、MLLib、GraphX、 R五大子框架和库之间可以无缝地共享数据和操作，这不仅打造了 Spark在当今大数据计算领域其他计算框架都无可匹敌的优势，而且使得 Spark正在加速成为大数据处理中心首选通用计算平台，而 Spark商业案例和性能优化必将成为接下来的重中之重！
　　本书根据王家林老师亲授课程及结合众多大数据项目经验编写而成，其中王家林、段智华编写了本书近 90%的内容，具体编写章节如下。
　　第3章 Spark的灵魂： RDD和 DataSet；
　　第4章 Spark Driver启动内幕剖析；
　　第5章 Spark集群启动原理和源码详解；
　　第6章 Spark Application提交给集群的原理和源码详解；
　　第7章 Shuffle原理和源码详解；
　　第8章 Job工作原理和源码详解；
　　第9章 Spark中 Cache和 checkpoint原理和源码详解；
　　第10章 Spark中 Broadcast和 Accumulator原理和源码详解；
　　第11章 Spark与大数据其他经典组件整合原理与实战；
　　第12章 Spark商业案例之大数据电影点评系统应用案例；
　　第13章 Spark 2.2实战之 Dataset开发实战企业人员管理系统应用案例；
　　第14章 Spark商业案例之电商交互式分析系统应用案例；
　　第15章 Spark商业案例之 NBA篮球运动员大数据分析系统应用案例；
　　第16章电商广告点击大数据实时流处理系统案例；
　　第17章 Spark在通信运营商生产环境中的应用案例；
　　第18章使用 Spark GraphX实现婚恋社交网络多维度分析案例；
　　第23章 Spark集群中 Mapper端、Reducer端内存调优；
　　第24章使用 Broadcast实现 Mapper端 Shuffle聚合功能的原理和调优实战；
　　第25章使用 Accumulator高效地实现分布式集群全局计数器的原理和调优案例；
　　第27章 Spark五大子框架调优最佳实践；
　　第28章 Spark 2.2.0新一代钨丝计划优化引擎；
　　第30章 Spark性能调优之数据倾斜调优一站式解决方案原理与实战；
　　第31章 Spark大数据性能调优实战专业之路。
　　其中，段智华根据自身多年的大数据工作经验对本书的案例等部分进行了扩展。
　　除上述章节外，剩余内容由夏阳、郑采翎、闫恒伟三位作者根据王家林老师的大数据授课内容而完成。