Spark0903.2

最新推荐文章于 2024-07-25 23:49:05 发布

海边捡贝壳的小男孩

最新推荐文章于 2024-07-25 23:49:05 发布

阅读量91

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/Mr_Serien/article/details/108430079

版权

Spark:

一、Spark初识
在这里插入图片描述

二、Spark简介

1、一站式的数据分析引擎：（http://spark.apache.org/）
Apache Spark™ is a unified analytics engine for large-scale data processing
2、 Spark四大特性

Speed (快速)--使用内存
Ease of Use（易用）--可以支持多语言进行开发
Generality （通用性）--实时也能做、离线也能做、Sql也能写、机器学习也能做
Runs Everywhere（ 到处运行 ）--Hadoop(yarn)、Apache Mesos、standalone（spark）

3、RDD：弹性分布式数据集 --【Spark 数据结构】

弹性 : 数据既可以在磁盘 也可以在内存
spark计算尽量基于内存的计算框架			
分布式：RDD分布式存储的（分区：Partition）
	   所有的Partition组合到一起就是一个RDD（完成的数据）
补充一点：Spark RDD 编程只能用 高阶函数 面向函数编程

RDD三个特性：分区，不可变，并行操作。
4、SparkRDD的操作
SparkRDD支持两种类型的操作：
高阶函数=》算子
Transformation类型

		---输入算子（textFile/parallelize）
			parallelize给scala集合变成RDD
			textFile读取文本
		---转换算子
			map/flatmap/reduceByKey 
		---缓存算子
			cache【内存】
			persist 【磁盘|内存|序列化或者非序列化|RDD缓存的时候做备份】
			补充： Transformation类型算子分为两种 ：
				Shuffle型的 (触发stage划分)
				非Shuffle型的 （推荐使用 一般不需要跨网络传输数据 ）

Action类型

		---一般输出型的算法(打印、持久化磁盘)
			foreach() / count() / collect() 
			reduce() / saveAsHadoopFile()
		---一般是拉取形成一些集合

编程一下 SparkRDD

scala 版本WordCount:

 def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf()
      .setMaster("local")
      .setAppName("scala_wordcount")
    val sc: SparkContext = new SparkContext(conf)
    val list = List(
      "i,jump",
      "you,jump"
    )
    val listRDD: RDD[String] = sc.parallelize(list)
	listRDD.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).foreach(println)
    sc.stop()
  }

Dependencies 也就是依赖关系，记录了该 RDD 的计算过程，也就是说这个 RDD 是通过哪个 RDD 经过怎么样的转化操作得到的。

根据每个 RDD 的分区计算后生成的新的 RDD 的分区的对应关系：
窄依赖就是父 RDD 的分区可以一一对应到子 RDD 的分区
宽依赖是说父 RDD 的每个分区可以被多个子 RDD 分区使用。

Spark 区分宽窄依赖的原因主要有两点：

窄依赖支持在同一节点上进行链式操作，比如在执行了 map 后，紧接着执行 filter 操作。相反，宽依赖需要所有父分区都是可用的。
从失败恢复的角度考虑，窄依赖失败恢复更有效，因为只要重新计算丢失的父分区即可，而宽依赖涉及到 RDD 的各级多个父分区。

血缘关系链

海边捡贝壳的小男孩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark0903.2

Spark:一、Spark初识二、Spark简介1、一站式的数据分析引擎：（http://spark.apache.org/）Apache Spark™ is a unified analytics engine for large-scale data processing2、 Spark四大特性Speed (快速)--使用内存Ease of Use（易用）--可以支持多语言进行开发Generality （通用性）--实时也能做、离线也能做、Sql也能写、机器学习也能做Runs E
复制链接

扫一扫