![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
沐雨金鳞
大行不顾细谨
展开
-
Spark的算子的分类
从大方向来说Spark 算子大致可以分为以下两类:Transformation 变换/转换算子这种变换并不触发提交作业完成作业中间过程处理。Transformation 操作是延迟计算的也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行需要等到有 Action 操作的时候才会真正触发运算。 Action 行动算子这类算子会触发 SparkContext 提交 Job 作业。Action 算子会触发 Spark 提交作业Job并将数据输出 Spark系统。从小方向来说Spark.转载 2020-11-17 13:42:39 · 663 阅读 · 0 评论 -
Spark学习笔记(1、Spark概览 2、RDD编程)
Spark学习笔记1:Spark概览 Spark是一个用来实现快速而通用的集群计算的平台笔记1简单介绍了Spark以及Spark的各种组件Spark Core、Spark SQL、Spark Streaming、Spark MLlib等Spark学习笔记2:RDD编程 一个简单的单词计数的例子来开始介绍RDD编程Spark对数据的操作无外乎创建RDD,转化已有RDD以及调用...转载 2019-05-15 08:57:54 · 270 阅读 · 0 评论 -
Spark学习笔记:(3、键值对操作 )
Spark学习笔记3:键值对操作 键值对RDD通常用来进行聚合计算,Spark为包含键值对类型的RDD提供了一些专有的操作Spark中创建pair RDD的方法:1、存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pair RDD2、还可以使用map()函数将一个普通的RDD转为pair RDD。Pair RDD的转化操作reduceByKey() 与re...转载 2019-05-15 09:10:10 · 338 阅读 · 0 评论