spark_sql
凯己几
生而不易,何来简单。
展开
-
spark sql中的udf和udaf实现
今天没什么事,突然想起之前写过的sqark中SQL中的UDAF方法,这个还是挺有意思的,难度比蜂房中UDAF高,其中直接体现了火花的分而治之的细想,所以打算今天的博客在加一个火花SQL的UDF和UDAF编写。直接进入正题。1.udf函数的编写.sqlContext.udf.register(“CTOF”,(degreesCelcius:Double)=>((degreesCel...原创 2018-11-06 19:50:38 · 269 阅读 · 0 评论 -
spark的 两种UDAF
一、UDAF简介先解释一下什么是UDAF(User Defined Aggregate Function),即用户定义的聚合函数,聚合函数和普通函数的区别是什么呢,普通函数是接受一行输入产生一个输出,聚合函数是接受一组(一般是多行)输入然后产生一个输出,即将一组的值想办法聚合一下。 关于UDAF的一个误区我们可能下意识的认为UDAF是需要和group by一起使用的,实际上UDAF...转载 2019-01-27 23:57:37 · 216 阅读 · 0 评论 -
spark sql DataFrameNaFunctions
DataFrameNaFunctions用来对DataFrame中值为null或NaN的列做处理,处理分为三种类型:drop:根据条件丢弃含有null或NaN的行fill:根据条件使用指定值填充值为null或NaN的列,相当于设置默认值replace:根据条件替换列值 下面是针对每种处理方式的详细解释: 1 2 3 4 5 6...转载 2019-01-28 00:02:04 · 339 阅读 · 0 评论 -
spark 累加器
一、累加器简介在Spark中如果想在Task计算的时候统计某些事件的数量,使用filter/reduce也可以,但是使用累加器是一种更方便的方式,累加器一个比较经典的应用场景是用来在Spark Streaming应用中记录某些事件的数量。使用累加器时需要注意只有Driver能够取到累加器的值,Task端进行的是累加操作。创建的Accumulator变量的值能够在Spark Web UI...转载 2019-01-28 00:03:51 · 1679 阅读 · 0 评论