2017年新春报喜!热烈祝贺王家林老师大数据经典著作《SPARK内核机制解析及性能调优》 畅销书籍 出版上市!

2017年新春报喜!热烈祝贺王家林老师大数据经典著作《SPARK内核机制解析及性能调优》 畅销书籍 出版上市!

 

 

 

 

 

 

 

 

 

 
本书致力于Spark内核的深入解析,带领读者掌握Spark内核的各个关键知识点。具体内容由详细讲述RDD提供的功能以及内部实现的机制开始,通过源码引导读者深入理解Spark的集群部署的内部机制、Spark内部调度的机制、Executor的内部机制、Shuffle的内部机制,进而讲述Tungsten的内部机制,接着又进一步深入分析了SparkStreaming的内部机制。本书的后部分,是任何Spark应用者都**关注的Spark性能调优的内容。本书可以使读者对Spark内核有更深入有效的理解,从而实现对Spark系统深度调优、Spark生产环境下故障的定位和排除、Spark的二次开发和系统高级运维。本书的每章开篇均有重点介绍以引导读者有目的有重点的阅读或查阅。本书适合于对大数据开发有兴趣的在校学生。同时,对有分布式计算框架应用经验的人员,本书也可以作为Spark源码解析的参考书籍。


前言
第1章RDD功能解析
1.1RDD产生的技术背景及功能
1.2RDD的基本概念
1.2.1RDD的定义
1.2.2RDD五大特性
1.2.3RDD弹性特性的7个方面
1.3创建RDD的方式
1.3.1通过已经存在的Scala集合创建RDD
1.3.2通过HDFS和本地文件系统创建RDD
1.3.3其他的RDD的转换
1.3.4其他的RDD的创建
1.4RDD算子
1.5RDD的Transformation算子
1.5.1Transformation的定义
1.5.2Transformation在RDD中的角色定位及功能
1.5.3Transformation操作的Lazy特性
1.5.4通过实践说明Transformation的Lazy特性
1.6RDD的Action算子
1.6.1Action的定义
1.6.2Action 在RDD中的角色定位及功能
1.7小结
第2章RDD的运行机制
2.1RDD依赖关系
2.1.1窄依赖(Narrow Dependency)
2.1.2宽依赖(Shuffle Dependency)
2.2有向无环图(Directed Acyclic Graph,DAG)
2.2.1什么是DAG
2.2.2DAG的生成机制
2.2.3DAG的逻辑视图
2.3RDD内部的计算机制
2.3.1RDD的计算任务(Task)
2.3.2RDD的计算过程
2.4RDD中缓存的适用场景和工作机制
2.4.1缓存的使用
2.4.2缓存的适用场景
2.4.3缓存工作机制解析
2.5RDD的检查点(Checkpoint)的适用场景和工作机制
2.5.1Checkpoint的触发
2.5.2Checkpoint的适用场景
2.5.3Checkpoint工作机制解析
2.6RDD容错原理及其四大核心要点
2.6.1RDD容错原理
2.6.2RDD容错的四大核心要点
2.7通过WordCount实践RDD内部机制
2.7.1WordCount案例实践
2.7.2解析RDD生成的内部机制
2.8小结
第3章部署模式(Deploy)解析
3.1部署模式概述
3.2应用程序的部署
3.2.1应用程序部署的脚本解析
3.2.2应用程序部署的源代码解析
3.3Local与Local-Cluster部署
3.3.1Local部署
3.3.2Local[*]与Local[N]部署
3.3.3Local[*,M]与Local[N,M]部署
3.3.4Local-Cluster[S,C,M]部署
3.4Spark Standalone部署
3.4.1部署框架
3.4.2应用程序的部署
3.4.3Master的部署
3.4.4Worker的部署
3.4.5内部交互的消息机制
3.4.6Master HA的部署
3.5Spark on YARN的部署模型
3.5.1部署框架
3.5.2应用程序的部署
3.6小结
第4章Spark调度器(Scheduler)运行机制
4.1Spark运行的核心概念
4.1.1Spark运行的基本对象
4.1.2Spark运行框架及各组件的基本运行原理
4.2Spark Driver Program剖析
4.2.1什么是Spark Driver Program
4.2.2SparkContext原理剖析
4.2.3SparkContext源代码解析
4.3Spark Job的触发
4.3.1Job的逻辑执行(General Logical Plan)
4.3.2Job具体的物理执行
4.3.3Job触发流程源代码解析
4.4高层的DAG调度器(DAGScheduler)
4.4.1DAG的定义
4.4.2DAG的实例化
4.4.3DAGScheduer划分Stage的原理
4.4.4DAGScheduer划分Stage的具体算法
4.4.5Stage内部Task获取最佳位置的算法
4.5底层的Task调度器(TaskScheduler)
4.5.1TaskScheduer原理剖析
4.5.2TaskScheduer源代码解析
4.6调度器的通信终端(SchedulerBackend)
4.6.1SchedulerBackend原理
4.6.2SchedulerBackend源代码解析
4.6.3Spark程序的注册机制
4.6.4Spark程序对计算资源Executor的管理
4.7小结
第5章执行器(Executor)
5.1Executor的创建、分配、启动及异常处理
5.1.1Executor的创建
5.1.2Executor的资源分配
5.1.3Executor的启动
5.1.4Executor的异常处理
5.2执行器的通信接口(ExecutorBackend)
5.2.1ExecutorBackend接口与Executor的关系
5.2.2ExecutorBackend的不同实现
5.2.3ExecutorBackend中的通信
5.3执行器(Executor)中任务的执行
5.3.1Executor中任务的加载
5.3.2Executor中的任务线程池
5.3.3任务执行失败处理
5.3.4剖析TaskRunner
5.4小结
第6章Spark的存储模块(Storage)
6.1Storage概述
6.1.1Storage的概念
6.1.2Storage的设计模式
6.2Storage模块整体架构
6.2.1通信层
6.2.2存储层
6.2.3Partition与Block的对应关系
6.3不同Storage Level对比
6.4Executor内存模型
6.5Tachyon
6.5.1Tachyon简介
6.5.2Tachyon API的使用
6.5.3Tachyon在Spark中的使用
6.6小结
第7章Shuffle机制
7.1Shuffle概述
7.2Shuffle的框架
7.2.1Shuffle的框架演进
7.2.2Shuffle的框架内核
7.2.3Shuffle框架的源代码解析
7.2.4Shuffle 的注册
7.2.5Shuffle读写数据的源代码解析
7.3基于Hash的Shuffle
7.3.1基于Hash的Shuffle内核
7.3.2基于Hash的Shuffle写数据的源代码解析
7.4基于Sort的Shuffle
7.4.1基于Sort的Shuffle内核
7.4.2基于Sort的Shuffle写数据的源代码解析
7.5基于Tungsten Sort的Shuffle
7.5.1基于Tungsten Sort的Shuffle内核
7.5.2基于Tungsten Sort的Shuffle写数据的源代码解析
7.6小结
第8章钨丝计划(Project Tungsten)
8.1钨丝计划(Project Tungsten)概述
8.2内存管理模型
8.2.1现有内存管理的机制
8.2.2Project Tungsten内存管理的模型及其源代码的解析
8.3基于内存管理模型的Shuffle二进制数据处理
8.3.1插入记录时二进制数据的处理
8.3.2spill时二进制数据的处理
8.4小结
第9章性能优化
9.1Spark的配置机制
9.1.1

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
引用\[1\]:在过去的两个月里,Databricks公司举办了一场会议,将数据团队聚集在一起,共召开220多个会议,有无数机会与同行交流——超过50,000名数据科学家、数据工程师、分析师、商业领袖和其他数据专业人士。 Spark + AI 峰会虚拟环境。 引用\[2\]:本书以数据智能为灵魂,以Spark 2.4.X版本为载体,以Spark+ AI商业案例实战和生产环境下几乎所有类型的性能调优为核心,对企业生产环境下的Spark+AI商业案例与性能调优抽丝剥茧地进行剖析。全书共分4篇,内核解密篇基于Spark源码,从一个实战案例入手,循序渐进地全面解析Spark 2.4.X版本的新特性及Spark内核源码;商业案例篇选取Spark开发中最具代表性的经典学习案例,在案例中综合介绍Spark大数据技术;性能调优篇覆盖Spark在生产环境下的所有调优技术; Spark+ AI内幕解密篇讲解深度学习动手实践,通过整合Spark、PyTorch以及TensorFlow揭秘Spark上的深度学习内幕。本书适合所有大数据和人工智能学习者及从业人员使用。对于有丰富大数据和AI应用经验的人员,本书也可以作为大数据和AI高手修炼的参考用书。同时,本书也特别适合作为高等院校的大数据和人工智能教材。 问题:spark数据分析实战——奥运会 回答: Spark是一个强大的大数据处理框架,可以用于数据分析和处理。在奥运会数据分析实战中,Spark可以帮助我们处理大规模的奥运会数据,进行数据清洗、转换和分析。通过使用Spark的分布式计算能力和优化技术,我们可以高效地处理大量的奥运会数据,并从中提取有价值的信息。同时,Spark还提供了丰富的数据处理和机器学习库,可以帮助我们进行数据挖掘和建模,以便更好地理解和预测奥运会的趋势和结果。通过结合Spark和AI技术,我们可以实现更深入的奥运会数据分析,并为奥运会的组织者、运动员和观众提供更好的决策支持和用户体验。 #### 引用[.reference_title] - *1* *2* [免费参加全球最大的Spark+AI峰会(Databricks 2020年6月22-26日)!免费访问峰会主题演讲及分组会议!](https://blog.csdn.net/duan_zhihua/article/details/106729096)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [热烈祝贺王家大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行...](https://blog.csdn.net/duan_zhihua/article/details/106294896)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

段智华

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值