Spark介绍
Spark是一个计算框架。
它是一个快速可通用的引擎,主要用于大规模数据处理。
Apache Spark是一个开源的计算系统,以使数据分析程序的书写和运行更快为目的。
Spark另外的一个目的:
Spark历史
Spark的开发团队:伯克利大学的AMP实验室
以下图就是AMP实验室所开发出来的计算框架做数据分析时所用到的技术
Spark第一个版本是0.6版本
Spark第一个版本到现在已经是6年了,hadoop第一个版本到现在已经12年了。
Spark是美国加州大学伯克利分校的AMP实验室(主要创始人lester和Matei)开发的通用的大数据处理框架
2009伯克利大学开始编写最初的源代码
2010年才开放的源码
2012年2月发布了0.6.0版本
2013年6月进入了Apache孵化器项目
2013年年中Spark的主要成员成立的DataBricks公司
2014年2月成为了Apache的顶级项目(8个月的时间)
2015年5月底Spark1.0.0发布
Spark成立了一家公司叫做DataBricks,它通过Apache来开源宣传技术,它来解决Spark的bug为商业提供服务。
Hadoop成立一家公司叫做CDH,它也是通过Apache来开源宣传技术,它来解决Hadoop的bug为商业提供服务。
商业版本都会比开源版本好用。
能够开发Spark的api汇总
java(兼容性很好),scala(兼容性很好),python(兼容性不错),R语言(兼容性一般)都可以开发Spark
java和scala开发spark它的兼容性,效率上没区别,因为都是基于JVM的编程语言,都是编译成.class再在虚拟机里执行。Spark是使用scala来写的,它的所有进程都是JVM进程。
如果使用Python来写,它的解释器是CPython解释器,如果要在集群中运行,这个解释器与JVM会进行一个交互通信。存在①兼容性问题②传输效率问题
Spark比MapReduce快的原因
原因1:Spark支持基于内存迭代,MapReduce不支持
原因2:因为DAG
因为DAG能把Task根据宽窄依赖划分成结果集TaskSet,TaskSet给TaskScheduler进行Pipeline计算
【注】
迭代:每次的逻辑一模一样,利用上一次的结果进行计算
递归:重复调用函数自身实现循环
Spark支持内存迭代,MapReduce不支持
Spark运行模式
WordCount案例
WordCount案例的目的是统计每一个单词出现的次数
注:创建完项目之后,需要修改scala依赖包,还要创建Spark依赖包(去官网下)。
思路:
①创建配置对象
②创建上下文,加载数据到RDD中
③分词
④分组,聚合
⑤排序
⑥输出
object WCSpark {
def main(args: Array[String]): Unit = {
//创建配置对象
val conf = new SparkConf()
//设置App的名称 有啥用? 方便在监控页面找到 MR-》Yarn 8088
conf.setAppName("WCSpark")
//设置Spark的运行模式 local本地运行 用于测试环境
conf.setMaster("local")
//创建Spark上下文 他是通往集群的唯一通道
val sc = new SparkContext(conf)
val lineRDD = sc.textFile("d:/wc.txt")
//基于lineRDD中的数据 进行分词
val wordRDD = lineRDD.flatMap { _.split(" ") }
//每一个单词计数为1 pairRDD K:word V:1
val pairRDD = wordRDD.map { (_,1) }
//相同的单词进行分组,对组内的数据进行累加
//restRDD K:word V:count
val restRDD = pairRDD.reduceByKey((v1,v2)=>v1+v2)
}
}
根据单词出现的次数来排序
方法1:sortByKey 根据key来排序
restRDD
.map(_.swap)
.sortByKey(false)
.map(_.swap)
.foreach(println)
方法2:使用sortBy这个方法,来指定根据哪一个字段来排序
restRDD
.sortBy(x=>x._2, false)
.foreach(println)
最后,释放资源
sc.stop()
RDD
R(Resilient)D(Distributed )D(Dataset):弹性分布式数据集
对一个RDD执行一个方法,返回RDD。一切的计算基于RDD。