以源码为基础，结实际案例，深入分析Spark核心原理和生态圈BDAS

最新推荐文章于 2020-12-06 13:03:41 发布

小迁W️：bjmsb2019

最新推荐文章于 2020-12-06 13:03:41 发布

阅读量226

点赞数

分类专栏： java 数据库微服务文章标签： python java 大数据分布式 spark

科技

本文链接：https://blog.csdn.net/Ppikaqiu/article/details/104249100

版权

微服务同时被 3 个专栏收录

129 篇文章 1 订阅

订阅专栏

java

8 篇文章 0 订阅

订阅专栏

数据库

5 篇文章 0 订阅

订阅专栏

前言：

图解Spark：核心技术与案例实战以Spark 2.0 版本为基础进行编写，全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析，重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架，同时还介绍了Spark 生态圈相关组件，包括了Spark SQL 的即席查询、Spark Streaming 的实时流处理应用、MLbase/MLlib 的机器学习、GraphX 的图处理、SparkR 的数学计算和Alluxio 的分布式内存文件系统等。
在这里插入图片描述

本书从Spark
核心技术进行深入分析，重要章节会结合源代码解读其实现原理，围绕着技术原理介绍了相关典型实例，读者通过这些实例可以更加深入地理解Spark
的运行机制。另外本书还应用了大量的图表进行说明，通过这种方式让读者能够更加直观地理解Spark 相关原理。
读者对象：
(1)大数据爱好者
(2) Spark 开发人员
(3) Spark 运维人员
(4)数据科学家和算法研究

本书介绍

第一篇基础篇(第1~2章)
介绍了Spark诞生的背景、演进历程，以及Spark生态圈的组成，并详细介绍了如何搭建Spark实战环境。通过该环境不仅可以阅读Spark 源代码，而且可以开发Spark应用程序。
第1章 Spark及其生态圈概述
第2章搭建Spark实战环境
在这里插入图片描述
第二篇核心篇(第3~6章)
讲解了Spark 的编程模型、核心原理、存储原理和运行架构，在核心原理中对Spark 通信机制、作业执行原理、调度算法、容错和监控管理等进行了深入分析，在分析原理和代码的同时结合实例进行演示。
第3章 Spark编程模型
在这里插入图片描述
第4章 Spark核心原理
第5章 Spark存储原理
第6章 Spark运行架构

第三篇组件篇(第7~12章)
介绍了Spark 的各个组件，包括Spark SQL的即席查询、Spark Streaming的实时流处理应用、MLbase/MLlib的机器学习GraphX 的图处理、SparkR 的数学计算和Alluxio的分布式内存文件系统等。
第7章 Spark SQL
第8章 Spark Streaming
在这里插入图片描述
第9章 Spark MLlib
第10章 Spark GraphX

第11章 SparkR
第12章 Alluxio

另外本书后面还包括5个附录:附录A为编译安装Hadoop,附录B为安装MySQL数据库，附录C为编译安装Hive,附录D为安装ZooKeeper,附录E为安装Kafka。