Spark介绍及RDD整合

Spark介绍

Spark是一个计算框架。
它是一个快速可通用的引擎,主要用于大规模数据处理
Apache Spark是一个开源的计算系统,以使数据分析程序的书写和运行更快为目的。
Spark另外的一个目的:
在这里插入图片描述

Spark历史

Spark的开发团队:伯克利大学的AMP实验室
以下图就是AMP实验室所开发出来的计算框架做数据分析时所用到的技术
在这里插入图片描述

Spark第一个版本是0.6版本

Spark第一个版本到现在已经是6年了,hadoop第一个版本到现在已经12年了。
Spark是美国加州大学伯克利分校的AMP实验室(主要创始人lester和Matei)开发的通用的大数据处理框架
2009伯克利大学开始编写最初的源代码
2010年才开放的源码
2012年2月发布了0.6.0版本
2013年6月进入了Apache孵化器项目
2013年年中Spark的主要成员成立的DataBricks公司
2014年2月成为了Apache的顶级项目(8个月的时间)
2015年5月底Spark1.0.0发布

Spark成立了一家公司叫做DataBricks,它通过Apache来开源宣传技术,它来解决Spark的bug为商业提供服务。
Hadoop成立一家公司叫做CDH,它也是通过Apache来开源宣传技术,它来解决Hadoop的bug为商业提供服务。
商业版本都会比开源版本好用。

能够开发Spark的api汇总

java(兼容性很好),scala(兼容性很好),python(兼容性不错),R语言(兼容性一般)都可以开发Spark
java和scala开发spark它的兼容性,效率上没区别,因为都是基于JVM的编程语言,都是编译成.class再在虚拟机里执行。Spark是使用scala来写的,它的所有进程都是JVM进程。
如果使用Python来写,它的解释器是CPython解释器,如果要在集群中运行,这个解释器与JVM会进行一个交互通信。存在①兼容性问题②传输效率问题

Spark比MapReduce快的原因

在这里插入图片描述
原因1:Spark支持基于内存迭代,MapReduce不支持
在这里插入图片描述
原因2:因为DAG
因为DAG能把Task根据宽窄依赖划分成结果集TaskSet,TaskSet给TaskScheduler进行Pipeline计算
【注】
迭代:每次的逻辑一模一样,利用上一次的结果进行计算
递归:重复调用函数自身实现循环
Spark支持内存迭代,MapReduce不支持

Spark运行模式

在这里插入图片描述

WordCount案例

WordCount案例的目的是统计每一个单词出现的次数
在这里插入图片描述
注:创建完项目之后,需要修改scala依赖包,还要创建Spark依赖包(去官网下)。
思路:
①创建配置对象
②创建上下文,加载数据到RDD中
③分词
④分组,聚合
⑤排序
⑥输出

object WCSpark {
  def main(args: Array[String]): Unit = {
    //创建配置对象
    val conf = new SparkConf()
    //设置App的名称   有啥用? 方便在监控页面找到  MR-》Yarn 8088
    conf.setAppName("WCSpark")
    //设置Spark的运行模式  local本地运行  用于测试环境
    conf.setMaster("local")
    
    //创建Spark上下文 他是通往集群的唯一通道
    val sc = new SparkContext(conf)
       val lineRDD = sc.textFile("d:/wc.txt")
    //基于lineRDD中的数据 进行分词
    val wordRDD = lineRDD.flatMap { _.split(" ") }
    //每一个单词计数为1  pairRDD  K:word V:1
    val pairRDD = wordRDD.map { (_,1) }    
    //相同的单词进行分组,对组内的数据进行累加
    //restRDD K:word V:count
    val restRDD = pairRDD.reduceByKey((v1,v2)=>v1+v2)
    }
}

根据单词出现的次数来排序
方法1:sortByKey 根据key来排序

restRDD
.map(_.swap)
.sortByKey(false)
.map(_.swap)
.foreach(println)

方法2:使用sortBy这个方法,来指定根据哪一个字段来排序

 restRDD
      .sortBy(x=>x._2, false)
      .foreach(println)

最后,释放资源

 sc.stop()
RDD

R(Resilient)D(Distributed )D(Dataset):弹性分布式数据集
对一个RDD执行一个方法,返回RDD。一切的计算基于RDD。

RDD的五大特性
RDD是由一系列partition组成的
RDD提供的每一个函数实际上是作用在每一个partition上的
RDD是有一系列的依赖关系的,一个RDD依赖于其他RDD
可选项 分区器是作用在KV格式的RDD上的
可选项 RDD会提供一系列最佳的计算位置
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值