针对前面对spark的学习与调优的经验,总结了一下spark的简介和任务优化PPT,主要分为四个部分:1. spark简介;2. spark运行原理;3. spark任务优化;4. spark小结。
spark 简介
Apache spark是一个围绕速度、易用性和复杂分析构建的大数据计算框架。
Scala是函数式语言,适合数据处理编程,并且其运行在 JVM 之上,可利用java生态资源。Akka基于Actor模型,提供了一个用于构建可扩展的(Scalable)、弹性的(Resilient)、快速响应的(Responsive)应用程序的平台。spark在1.6.0之后使用Netty替代了Akka,Netty基于Reactor线程模型,具有无锁化的串行设计,高效的序列化,零拷贝,内存池等特性。DAG执行引擎,数据复用,迭代计算。架构充分展现了spark的灵活性。
Spark Core:包含Spark的基本功能,尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的。Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,Spark SQL查询被转换为Spark操作。Spark Streaming