SPARK
X5-j
这个作者很懒,什么都没留下…
展开
-
Spark核心编程-分组取topN
案例需求 对每个班级内的学生成绩,取出前3名。(分组取topN) 输入测试数据(以“ ”以做分割符) class1 90 class2 56 class1 87 class1 76 class2 88 class1 95 class1 74 class2 87 class2 67 class2 77 class1 98 class2 96 实现如下: 1 、scala的版本 pac...转载 2018-10-31 16:52:12 · 345 阅读 · 0 评论 -
spark调优参数
参数 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6.spark.storage.memoryFraction 7.spark.shuffle.memoryFraction 8.total-executor...原创 2019-02-19 11:13:36 · 137 阅读 · 0 评论 -
spark小记——scala的Map类型转sparksql的dataframe
源码: package com.ydj.sql import org.apache.spark.sql.SparkSession import scala.collection.mutable.ArrayBuffer /** * @Auther: yuandejin * @Date: 2019-09-04 13:43 * @Description: */ object ...原创 2019-09-04 13:52:10 · 2825 阅读 · 0 评论 -
spark小记——32个常用算子总结
Transformation 1.map map的输入变换函数应用于RDD中所有元素,而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize(1 to 10, 3),map函数执行10次,而mapPartitions函数执行3次。 2.filter(function) 过滤操作,满足filter内function函数为tr...转载 2019-09-06 10:59:28 · 192 阅读 · 0 评论