Spark0903.2

Spark:

一、Spark初识
在这里插入图片描述

二、Spark简介

1、 一站式的数据分析引擎 :(http://spark.apache.org/)
Apache Spark™ is a unified analytics engine for large-scale data processing
2、 Spark四大特性

Speed (快速)--使用内存
Ease of Use(易用)--可以支持多语言进行开发
Generality (通用性)--实时也能做、离线也能做、Sql也能写、机器学习也能做
Runs Everywhere( 到处运行 )--Hadoop(yarn)、Apache Mesos、standalone(spark)

3、RDD: 弹性分布式数据集 --【Spark 数据结构】

弹性 : 数据既可以在磁盘 也可以在内存
spark计算尽量基于内存的计算框架			
分布式:RDD分布式存储的(分区:Partition)
	   所有的Partition组合到一起就是一个RDD(完成的数据)
补充一点:Spark RDD 编程只能用 高阶函数 面向函数编程

RDD三个特性:分区,不可变,并行操作。
4、SparkRDD的操作
SparkRDD支持两种类型的操作 :
高阶函数=》算子
Transformation类型

		---输入算子(textFile/parallelize)
			parallelize给scala集合变成RDD
			textFile读取文本
		---转换算子
			map/flatmap/reduceByKey 
		---缓存算子
			cache【内存】
			persist 【磁盘|内存|序列化或者非序列化|RDD缓存的时候做备份】
			补充: Transformation类型算子分为两种 :
				Shuffle型的 (触发stage划分)
				非Shuffle型的 (推荐使用 一般不需要跨网络传输数据 )

Action类型

		---一般输出型的算法(打印、持久化磁盘)
			foreach() / count() / collect() 
			reduce() / saveAsHadoopFile()
		---一般是拉取形成一些集合 

编程一下 SparkRDD

scala 版本WordCount:

 def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf()
      .setMaster("local")
      .setAppName("scala_wordcount")
    val sc: SparkContext = new SparkContext(conf)
    val list = List(
      "i,jump",
      "you,jump"
    )
    val listRDD: RDD[String] = sc.parallelize(list)
	listRDD.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).foreach(println)
    sc.stop()
  }

Dependencies 也就是依赖关系,记录了该 RDD 的计算过程,也就是说这个 RDD 是通过哪个 RDD 经过怎么样的转化操作得到的。

根据每个 RDD 的分区计算后生成的新的 RDD 的分区的对应关系:
窄依赖就是父 RDD 的分区可以一一对应到子 RDD 的分区
宽依赖是说父 RDD 的每个分区可以被多个子 RDD 分区使用。

Spark 区分宽窄依赖的原因主要有两点:

窄依赖支持在同一节点上进行链式操作,比如在执行了 map 后,紧接着执行 filter 操作。相反,宽依赖需要所有父分区都是可用的。
从失败恢复的角度考虑,窄依赖失败恢复更有效,因为只要重新计算丢失的父分区即可,而宽依赖涉及到 RDD 的各级多个父分区。

血缘关系链

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值