![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
无问昨天与明天
这个作者很懒,什么都没留下…
展开
-
Spark常用算子-action
spark action常用算子类型如下:1.collectAsMap(): Map[K, V]:二元组RDD转为Map数据类型countByKey(): Map[K, Long]:统计RDD中每个key出现的次数,还回Map类型表示每个key出现了几次countByValue(): Map[T, Long]:统计RDD中每个元素出现的次数,还回Map类型表示每个元素出现了几次 val rdd...原创 2018-07-25 00:36:01 · 1784 阅读 · 0 评论 -
Spark常用算子-transformation
spark常用算子有两种: transformation:RDD中所有转换算子都是延迟加载,从一个RDD到另一个RDD转换没有立即转换,仅记录数据的逻辑操作,只有要求结果还回到Driver时的动作时才会真正运行。 action:触发action时才会真正的执行action操作动作 transformation常用算子类型如下:1.textFile (path: String) : RDD[S...原创 2018-07-25 00:37:44 · 2705 阅读 · 0 评论 -
Spark RDD- Partitioner
partitioner是Spark RDD的重要组成部分,记录了数据split的逻辑是shuffle过程中key重新分区的策略,决定了key被分到哪个分区内,RDD是k-v二元组数据形式时可继承Partitioner自定义分区。 ** * * 自定义分区逻辑:对words集合中每个word只分到一个分区内 * * @param words */ class MyPartitio...原创 2018-07-31 20:20:17 · 203 阅读 · 0 评论