spark高级编程开发
仰望星空的我
仰望星空,脚踏实地。
展开
-
Spark基础排序+二次排序(java+scala)
1.基础排序算法 sc.textFile("/data/putfile.txt").flatMap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_,1).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).collect //k...转载 2019-03-12 13:40:26 · 379 阅读 · 0 评论 -
spark 二次排序两种方法(scala)
排序数据: aa 34 bb 24 cc 83 aa 53 cc 12 aa 47 bb 35 aa 21 cc 64 bb 73 第一种方法是用spark中的sortBy方法: 首先将数据处理成(“aa”,34)的格式; 然后使用sortBy算子进行排序; /** * 二次排序使用sortBy */ rdd.map(a => (a.split(" ")(0),a.split...转载 2019-03-12 13:49:50 · 885 阅读 · 0 评论 -
Spark的高级排序(二次排序)
为了多维的排序,需要考虑多个条件,这要求我们自定义key 1 23 3 22 3 31 1 12 2 11 4 45 二、使用java实现 2.1、自定义key 使用scala.math.Ordered接口,实现Serializable接口 package com.chb.sparkDemo.secondarySort; import java.io.Serializable; import ...转载 2019-03-12 13:53:47 · 224 阅读 · 0 评论 -
Spark核心编程之排序及取前几数字
基于排序机制的wordcount程序. java package cn.spark.study.core; import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.Ja...转载 2019-03-12 14:04:18 · 618 阅读 · 0 评论 -
Spark运行原理
一、Spark专业术语定义 二、Spark运行基本流程 三、Spark运行架构特点 四、Spark核心原理透视 一、Spark专业术语定义 1、Application:Spark应用程序 指的是用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。 Spark应用程序,由一个或多个作业JOB组成,如下图所示: 2、Dr...转载 2019-05-07 14:03:16 · 207 阅读 · 0 评论