spark
文章平均质量分 75
有风微冷
奋发向上
展开
-
spark常用算子及含义
Action算子动作含义reduce(func)reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。collect()在驱动程序中,以数组的形式返回数据集的所有元素count()返回RDD的元素个数first()返回RDD的第一个元素(类似于take(1))take(n)返回一个由数据集的前n个元素组成的数组tak原创 2021-10-08 15:59:52 · 413 阅读 · 0 评论 -
saprk调优
一、资源调优(内存调优) spark调优的第一点就是为任务分配更多的资源,在一定范围内增加资源跟性能的提升是 成正比的。实现资源优化的基础上在考虑后面的性能调优。 资源的分配在任务提交的时候指定。调节的原则:尽可能将任务分配的资源调节到可以使用是资源的最大限度。举例:bin/spark-submit \--class com.spark.Test \--num-exe...原创 2019-08-28 14:21:13 · 274 阅读 · 0 评论 -
深入理解spark的工作机制,spark任务提交和执行流程
spark的工作机制: 用户在client端提交作业后,会由Driver运行main方法并创建spark context上下文。SparkContext向资源管理器(可以是Standalone,Mesos,Yarn)申请运行Executor资源,并启动StandaloneExecutorbackend, Executor向SparkContext申请Task。SparkContext...原创 2019-08-27 20:24:35 · 1297 阅读 · 0 评论 -
Spark知识点总结1
1.Spark & MR相对速度快的原因?(以及两者的比较) 都是分布式计算框架, Spark基于内存,MR基于磁盘(HDFS)。 Spark处理数据的能力一般是MR的十倍以上, Spark中除了基于内存计算外,还有DAG有向无环图来切分任务的执行先后顺序。 MR中只有map,reduce和join,而Spark中有各种场景的算子2.完成Spark java版本Wor...原创 2019-07-21 21:34:51 · 226 阅读 · 0 评论 -
Spark算子之Action类算子详解
概念:Action类算子也是一类算子(函数)叫做行动算子,如foreach,collect,count等。Transformations类算子是延迟执行,Action类算子是触发执行。一个application应用程序中有几个Action类算子执行,就有几个job运行。 Action类算子 count返回数据集中的元素数。会在结果计算完成后回收到Driver端。 take(n)...原创 2019-07-17 21:47:32 · 1034 阅读 · 0 评论 -
Spark之Transformation类算子详解
import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaSpark { def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setMaster("loc...原创 2019-07-17 21:30:40 · 265 阅读 · 0 评论 -
reduceBykey与groupByKey哪个好,通过源码解析?
reduceByKey:将相同的Key根据相应的逻辑进行处理。默认升序/** * Merge the values for each key using an associative and commutative reduce function. This will * also perform the merging locally on each mapper before s...原创 2019-07-24 15:24:57 · 632 阅读 · 0 评论 -
cache和pesist的区别与联系
cache 默认是将数据存放到内存中,懒执行 def cache(): this.type = persist()persist 可以指定持久化的级别。 最常用的是MEMORY_ONLY和MEMORY_AND_DISK。 ”_2”表示有副本数。尽量避免使用_2和DISK_ONLY级别cache和persist的注意点 1.都是懒执行(有的叫延迟执...原创 2019-07-24 14:41:29 · 828 阅读 · 0 评论 -
Spark中RDD的宽窄依赖和各自的特点。
窄依赖 父RDD和子RDD partition之间的关系是一对一。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一。不会有shuffle的产生。宽依赖 父RDD与子RDD partition之间的关系是一对多。会有shuffle的产生。...原创 2019-07-24 14:29:48 · 252 阅读 · 0 评论 -
浅谈hadoop和spark的shuffle异同?
Apache Spark 的 Shuffle 过程与 Apache Hadoop 的 Shuffle 过程有着诸多类似,一些概念可直接套用,例如,Shuffle 过程中,提供数据的一端,被称作 Map 端,Map 端每个生成数据的任务称为 Mapper,对应的,接收数据的一端,被称作 Reduce 端,Reduce 端每个拉取数据的任务称为 Reducer,Shuffle 过程本质上都是将 ...转载 2019-07-24 14:25:54 · 293 阅读 · 0 评论 -
Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?
1)Spark core:是其它组件的基础,spark的内核,主要包含:有向循环图、RDD、Lingage、Cache、broadcast等,并封装了底层通讯框架,是Spark的基础。2)SparkStreaming:(类似于storm)可以对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kafka、Flume、Twitter、Zero和TCP 套接字)进行类似于ha...原创 2019-07-24 12:26:20 · 5307 阅读 · 1 评论 -
Spark中的RDD是什么,有哪些特性?
1).什么是RDD? 弹式分布数据集(Resilient Distributed Dataset)2).RDD的五大特性? 1.RDD是由一系列的partition组成的 2.RDD之间具有依赖关系 3.RDD作用在partition是上 4.partition作用在具有(k,v)格式的数据集 5....原创 2019-07-24 12:16:41 · 4887 阅读 · 0 评论 -
Spark & MR的比较
都是分布式计算框架, Spark基于内存,MR基于磁盘(HDFS)。 Spark处理数据的能力一般是MR的十倍以上, Spark中除了基于内存计算外,还有DAG有向无环图来切分任务的执行先后顺序。 MR中只有map,reduce和join,而Spark中有各种场景的算子...原创 2019-07-24 12:12:27 · 529 阅读 · 0 评论 -
spark知识点总结(思维导图)
spark完整版(加上sparksql\sparkStreaming)和思维导图原件见:原创 2019-07-18 14:14:54 · 1441 阅读 · 0 评论