spark
CarlosXu14
日常分享代码心得,勿吐槽
展开
-
Spark使用scala和java分别实现二次排序
数据源:secondSort.txt 3 1 5 2 6 5 8 123 1 4 4 123 5 432 3 54 5 121 8 654 3 98 使用scala实现:过程较简单,需要首先创建一个二次排序的类,然后在map阶段将数据分割好以类对象接收,然后排序,返回 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkCo...原创 2019-10-10 09:47:19 · 139 阅读 · 0 评论 -
Spark使用Scala和java实现TopN
数据源: class1 100 class2 86 class3 70 class1 102 class2 65 class1 45 class2 85 class3 70 class1 16 class2 88 class1 95 class2 37 class3 98 class1 99 class2 23 使用Scala实现: import org.apache.spark.{SparkC...原创 2019-10-10 09:52:37 · 244 阅读 · 0 评论 -
Spark广播变量与累加器
在dirver定义一个变量,executor去使用,如果存在多个task,则会创建多个变量的副本,耗费内存。如果当前变量是一个需要计算的值,在driver端是无法获取的。 Scala实现: import org.apache.spark.broadcast.Broadcast import org.apache.spark.{SparkConf, SparkContext} object Br...原创 2019-10-10 10:41:03 · 109 阅读 · 0 评论