Spark介绍及RDD整合

最新推荐文章于 2021-12-20 18:28:01 发布

Andrea_null

最新推荐文章于 2021-12-20 18:28:01 发布

阅读量739

点赞数

文章标签： Spark RDD MapReduce scala

本文链接：https://blog.csdn.net/Andrea_null/article/details/84202000

版权

Spark介绍

Spark是一个计算框架。
它是一个快速可通用的引擎，主要用于大规模数据处理。
Apache Spark是一个开源的计算系统，以使数据分析程序的书写和运行更快为目的。
Spark另外的一个目的：
在这里插入图片描述

Spark历史

Spark的开发团队：伯克利大学的AMP实验室
以下图就是AMP实验室所开发出来的计算框架做数据分析时所用到的技术
在这里插入图片描述

Spark第一个版本是0.6版本

Spark第一个版本到现在已经是6年了，hadoop第一个版本到现在已经12年了。
Spark是美国加州大学伯克利分校的AMP实验室(主要创始人lester和Matei)开发的通用的大数据处理框架
2009伯克利大学开始编写最初的源代码
2010年才开放的源码
2012年2月发布了0.6.0版本
2013年6月进入了Apache孵化器项目
2013年年中Spark的主要成员成立的DataBricks公司
2014年2月成为了Apache的顶级项目（8个月的时间）
2015年5月底Spark1.0.0发布

Spark成立了一家公司叫做DataBricks，它通过Apache来开源宣传技术，它来解决Spark的bug为商业提供服务。
Hadoop成立一家公司叫做CDH，它也是通过Apache来开源宣传技术，它来解决Hadoop的bug为商业提供服务。
商业版本都会比开源版本好用。

能够开发Spark的api汇总

java(兼容性很好),scala(兼容性很好),python(兼容性不错),R语言(兼容性一般)都可以开发Spark
java和scala开发spark它的兼容性，效率上没区别，因为都是基于JVM的编程语言，都是编译成.class再在虚拟机里执行。Spark是使用scala来写的，它的所有进程都是JVM进程。
如果使用Python来写，它的解释器是CPython解释器，如果要在集群中运行，这个解释器与JVM会进行一个交互通信。存在①兼容性问题②传输效率问题

Spark比MapReduce快的原因

在这里插入图片描述
原因1：Spark支持基于内存迭代，MapReduce不支持

原因2：因为DAG
因为DAG能把Task根据宽窄依赖划分成结果集TaskSet，TaskSet给TaskScheduler进行Pipeline计算
【注】
迭代：每次的逻辑一模一样，利用上一次的结果进行计算
递归：重复调用函数自身实现循环
Spark支持内存迭代，MapReduce不支持

Spark运行模式

在这里插入图片描述

WordCount案例

WordCount案例的目的是统计每一个单词出现的次数
在这里插入图片描述
注：创建完项目之后，需要修改scala依赖包，还要创建Spark依赖包（去官网下）。
思路：
①创建配置对象
②创建上下文，加载数据到RDD中
③分词
④分组，聚合
⑤排序
⑥输出

object WCSpark {
  def main(args: Array[String]): Unit = {
    //创建配置对象
    val conf = new SparkConf()
    //设置App的名称   有啥用？ 方便在监控页面找到  MR-》Yarn 8088
    conf.setAppName("WCSpark")
    //设置Spark的运行模式  local本地运行  用于测试环境
    conf.setMaster("local")
    
    //创建Spark上下文 他是通往集群的唯一通道
    val sc = new SparkContext(conf)
       val lineRDD = sc.textFile("d:/wc.txt")
    //基于lineRDD中的数据 进行分词
    val wordRDD = lineRDD.flatMap { _.split(" ") }
    //每一个单词计数为1  pairRDD  K:word V:1
    val pairRDD = wordRDD.map { (_,1) }    
    //相同的单词进行分组，对组内的数据进行累加
    //restRDD K:word V:count
    val restRDD = pairRDD.reduceByKey((v1,v2)=>v1+v2)
    }
}

根据单词出现的次数来排序
方法1：sortByKey 根据key来排序

restRDD
.map(_.swap)
.sortByKey(false)
.map(_.swap)
.foreach(println)

方法2：使用sortBy这个方法，来指定根据哪一个字段来排序

 restRDD
      .sortBy(x=>x._2, false)
      .foreach(println)

最后，释放资源

 sc.stop()

RDD

R（Resilient）D（Distributed ）D（Dataset）：弹性分布式数据集
对一个RDD执行一个方法，返回RDD。一切的计算基于RDD。

RDD的五大特性

RDD是由一系列partition组成的

RDD提供的每一个函数实际上是作用在每一个partition上的

RDD是有一系列的依赖关系的，一个RDD依赖于其他RDD

可选项分区器是作用在KV格式的RDD上的

可选项 RDD会提供一系列最佳的计算位置