![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Show_Action
这个作者很懒,什么都没留下…
展开
-
spark自定义UDAF函数
import org.apache.spark.sql.Row import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction} import org.apache.spark.sql.types.{DataType, StringType, StructField, StructType} class GroupConcatDistinct extends UserDefin.原创 2020-06-23 09:42:34 · 158 阅读 · 0 评论 -
sparkstreaming和kafka集成知识回顾
SparkStreaming的Recevier方式和直连方式有什么区别? Recevier接收固定时间间隔的数据(放在内存当中),使用kafka高级的API,自动维护偏移量,达到固定时间才进行处理,效率低并且容易丢失数据 Direct直连方式,相当于直接连到kafka的分区上,使用kafka底层的API,效率高,需要自己维护偏移量 ...原创 2020-06-18 11:35:34 · 214 阅读 · 0 评论