。RDD介绍
。Spark基本工作原理
。Spark开发入门
。编写WorkCount程序
。使用本地模式进行测试
。使用spark-submit提交到集群运行(spark-submit仓用参数说明)
。Spark程序开发流程总结
。sark-shell的使用(编写workcount程序)
。创建rdd:并行化集合,基于文件创建rdd
。操作rdd:transformation和action,java8和旧版本的区别,操作key-value对
。RDD常用操作全程案例实战
。rdd持久化:cache()和persist(),几种持久化策略
。共享变量:broadcast variable,accumulator
。rdd高级编程:基于排序算法的wordcount,二次排序,topn,combineByKey
spark内核概览
。spark内核概览
。spark工作流程
。spark运行模式
。sparkContext原理剖析与源码分析
。job出发流程原理剖析与源码分析
。Master原理剖析(资源调度算法)
。高可用机制原理剖析
。注册机制原理剖析
。executor失败容错直至原理剖析
。资源调度算法剖析
。Worker原理剖析
。DAGScheduer原理剖析
。stage划分算法
。TaskScheduler原理剖析
。task分配算法
。Executor原理剖析
。shuffleMap和resultTask原理剖析
。shuffle原理剖析
。storage模块原理剖析
。BlockManager原理剖析
。Cache原理剖析
。Checkpoint原理剖析