Spark
文章平均质量分 71
✎重逢之时
这个作者很懒,什么都没留下…
展开
-
Spark编程之基本的RDD算子之zip,zipPartitions,zipWithIndex,zipWithUniqueId
Spark编程之基本的RDD算子之zip,zipPartitions,zipWithIndex,zipWithUniqueId1) zip拉链操作首先来看一下基本的api。def zip[U: ClassTag](other: RDD[U]): RDD[(T, U)]1自身的RDD的值的类型为T类型,另一个RDD的值的类型为U类型。zip操作将这两个值连接在一起。构成一个元祖值。RDD的值的类型为元祖。都是第i个值和第i个值进行连接。zip函数用于将两个RDD组合成Key/Value形式原创 2021-11-17 10:10:02 · 814 阅读 · 0 评论 -
Spark算子
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类:1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。Action 算子会触发 Spark 提交作业(Job),并将数据.原创 2021-04-26 14:43:11 · 337 阅读 · 0 评论