Spark集群模式相关概念

最新推荐文章于 2023-10-10 20:49:00 发布

浪灬迹-红尘少年

最新推荐文章于 2023-10-10 20:49:00 发布

阅读量153

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/qq_33706146/article/details/104751358

版权

Spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

SparkContext:Spark上下文：

作用：连接Spark集群，用户创建RDD、累加器和广播。

RDD：Resilient Distributed Dataset，弹性式分布式数据集：

RDD代表一个不可变的,可并行操作的元素分区集合。

RDD4种类型：a.创建RDD：3类(parallelize:将Seq序列数据转化为RDD、textFile将外部文件转化RDD、makeRDD将Seq序列数据转化为RDD并可指定分区)

b.转换操作：将RDD转换为另一个RDD，转换操作不触发运算

c.行动操作：触发运算，执行Job

d.控制操作：对RDD的cache(缓存应用)

内部表现形式上，RDD可分为以下5部分：

a.partition分区：获取partition分区列表，实际上就是切分(inputSplit)对象

b.partitioner分区函数：针对每个Split提供相对应的分区函数(partitioner)

c.dependencies依赖关系：描述RDD之间的依赖关系，获取RDD的依赖关系的列表

d.hash分区定义：针对KV类型的RDD，默认采取Hashpartitioon

e.preferredlocations首选位置：用于计算每个split的首选位置列表(例如用于HDFS文件块的位置)

RDD创建partition说明：

textFile创建两个RDD：1.mapRDD，2.HadoopRDD；

textFile创建RDD怎样分区的：例：val rdd = textFile("file:///home/text.txt"，7) 文件内容：hellow word ；

分区会根据IpuFormat分区：三目运算符机算：numberSplits == 0 ？1 : numberSplits 传进的numberSplits=7则根据totalSize=12除以7=1，跟默认的最小值=1相比较取最大值，和规定的最大值7比较取最小值，最后会得到1；分区数会计算为=12/1=12；这个时候分区就为12；

1.local版：spark-shell --Master local[n]
   a.【parallelize】-->默认创建的分区数为"n"
   b.【textFile】 -->加载本地文件：默认创建的分区数为最大为2，如果n=1<2,则为1
           -->hdfs文件系统：加载的分区数为block个数;注：block块的大小应大于10%(inputsplit知识点);更改分区数必须大于等于block数
   2.spark集群 spark-shell --Master spark://master:7077
   a.【parallelize】-->默认创建的分区数为Cores的总数==Executor数
   b.【textFile】 -->加载本地文件：默认创建的分区数为最大为2，如果n=1<2,则为1
           -->hdfs文件系统：加载的分区数为block个数;注：block块的大小应大于10%(inputsplit知识点);更改分区数必须大于等于block数
   3.yarn集群 spark-shell --Master yarn
   a.【parallelize】-->默认创建的分区数为yarn集群的Executor数
   b.【textFile】 -->加载本地文件：默认创建的分区数为最大为2，如果n=1<2,则为1
           -->hdfs文件系统：加载的分区数为block个数;注：block块的大小应大于10%(inputsplit知识点);更改分区数必须大于等于block数

preferredlocations首选位置

获取RDD首选位置，首先通过RDD依赖得到HadoopRDD，调用preferredLocations方法
scala> val rdd = sc.textFile("/worldcount/test1.txt")
rdd: org.apache.spark.rdd.RDD[String] = /worldcount/test1.txt MapPartitionsRDD[3] at textFile at <console>:24

scala> rdd.dependencies
res17: Seq[org.apache.spark.Dependency[_]] = List(org.apache.spark.OneToOneDependency@bd9abda)

scala> rdd.dependencies(0)
res18: org.apache.spark.Dependency[_] = org.apache.spark.OneToOneDependency@bd9abda

scala> val rdd1 = rdd.dependencies(0).rdd
rdd1: org.apache.spark.rdd.RDD[_] = /worldcount/test1.txt HadoopRDD[2] at textFile at <console>:24

scala> rdd1.preferredLocations(rdd.partitions(0))
res19: Seq[String] = ArraySeq(master, slave1)

scala> rdd1.preferredLocations(rdd.partitions(1))
res20: Seq[String] = ArraySeq(master, slave1)