![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Yblsfls
just do it。
展开
-
Spark常用算子总结
Spark常用算子总结 算子分类 大方向分类 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算子:这类算子会触发 SparkCont...原创 2018-07-18 14:21:45 · 669 阅读 · 0 评论 -
Spark DataFrame批量修改数据类型
rdd的算子分成Transformation和action算子,其中Transformation算子的操作每次都会生成一个新的rdd,所以在进行数据转换的时候如果单个列进行转换的话性能消耗比较严重,所以批量的操作进行都要减少执行次数。 val colNames = df.schema.fieldNames val cols = colNames.map(f => df(f).cas...原创 2018-11-19 19:09:55 · 5219 阅读 · 1 评论