![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 71
✎重逢之时
这个作者很懒,什么都没留下…
展开
-
Spark编程之基本的RDD算子之zip,zipPartitions,zipWithIndex,zipWithUniqueId
Spark编程之基本的RDD算子之zip,zipPartitions,zipWithIndex,zipWithUniqueId 1) zip拉链操作 首先来看一下基本的api。 def zip[U: ClassTag](other: RDD[U]): RDD[(T, U)] 1 自身的RDD的值的类型为T类型,另一个RDD的值的类型为U类型。zip操作将这两个值连接在一起。构成一个元祖值。RDD的值的类型为元祖。 都是第i个值和第i个值进行连接。 zip函数用于将两个RDD组合成Key/Value形式原创 2021-11-17 10:10:02 · 798 阅读 · 0 评论 -
Spark算子
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。 Action 算子会触发 Spark 提交作业(Job),并将数据.原创 2021-04-26 14:43:11 · 280 阅读 · 0 评论