spark
angel泪
这个作者很懒,什么都没留下…
展开
-
spark-checkpoint机制
设置checkpoint流程 1.job执行结束后,会判断是否需要checkpint操作 2.如果需要checkepoint操作,则先创建一个目录,在启动一个新的job计算,并将计算结果写入到创建的目录里面 3.创建一个checkpointRDD,并将原始的RDD依赖全部删除 4.将checkpointRDD加入到原始RDD依赖中,并将cpState状态改成checkpoi...原创 2018-05-25 10:21:57 · 319 阅读 · 0 评论 -
spark自定义二次排序
1.实现scala.math.Ordered接口2.重写接口重的三个方法3.三个方法中自定义你自己的比较大小的业务逻辑4.我的案例package com.lilei.spark.session; import java.io.Serializable; import scala.math.Ordered; /** * 品类二次排序key * * 封装你要进行排序算法需要的几个字段:点击...原创 2018-05-15 16:42:06 · 411 阅读 · 0 评论 -
spark中map和flatMap的区别
不同点:map操作是对RDD中每个元素进行操作的,操作的结果是一对一的而flatMap操作也是对RDD中每个元素进行操作的,但是它的操作结果是一对一或者是一对多的如spark入门的单词统计案例中对单词的分割就要用到flatMap,因为分割以后的结果比元素要多用map就不行: package com.lilei.rdd; import org.apache.spark.SparkConf; ...原创 2018-06-04 08:31:28 · 1407 阅读 · 0 评论 -
Spark核心RDD:combineByKey函数详解
为什么单独讲解combineByKey?因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)def combineByKey[C]( cr...原创 2018-06-04 09:49:29 · 393 阅读 · 0 评论 -
sparksql查询hbase中的数据
1.demo环境说明 demo是根据spark2.2+hadoop2.7+hbase1.3(亲测版本兼容,其他不同版本可能会出现不兼容的情况)2.代码案例package com.yzc.test; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; i...原创 2018-05-29 16:38:14 · 3944 阅读 · 2 评论 -
sparkRDD算子系列-treeAggregate算子
1.函数定义:def treeAggregate[U: ClassTag](zeroValue: U)( seqOp: (U, T) => U, combOp: (U, U) => U, depth: Int = 2): U = withScope2.函数解释: aggregate需要三个参数(初始值zeroValue,函数seqOp和函数combOp)...原创 2018-06-14 10:41:18 · 429 阅读 · 0 评论 -
spark常见算子操作
package com.yzc.lilei.spark.transformoperate; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.j...原创 2018-11-22 20:37:07 · 340 阅读 · 0 评论