大数据技能学习
浊酒倾壶
这个作者很懒,什么都没留下…
展开
-
spark的RDD编程(常用的Transformation(算子))
spark中的RDD编程之常用的Transformation(算子) RDD是什么 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。 在Spark中,RDD被表示为对象,通...原创 2018-12-03 17:58:37 · 573 阅读 · 0 评论 -
Spark SQL自定义聚合函数(弱类型)
Spark SQL的自定义聚合函数 UDAF的使用 用户自定义UDAF聚合函数需要实现以下两个步骤: 1、弱类型聚合函数 继承UserDefinedAggregateFunction 2、注册为函数:ss.udf.register(“avgCus”, new CusAvgFun) package SparkSQL import org.apache.spark.sql.expressions.{...原创 2019-07-09 16:57:06 · 339 阅读 · 0 评论 -
Spark SQL自定义聚合函数(强类型)
自定义Spark SQL自定义聚合函数(强类型 基于DataSet) 弱类型聚合函数的构建见https://blog.csdn.net/qq_41519227/article/details/95210494 主要有以下几点: 1、继承Aggregator (import org.apache.spark.sql.expressions.Aggregator )具体详解见下方代码 2、函数的使用...原创 2019-07-09 18:32:06 · 557 阅读 · 0 评论