spark
java的爪哇
在这里和大家交流IT的技术我很高兴
展开
-
spark UDAF根据某列去重求合 distinct sum
spark UDAF根据某列去重求合 distinct sum例子:package spark.groupzbimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.types._import org.apache.spark.sql.{Row, SparkSession}/** * creat...原创 2020-03-20 10:49:19 · 1074 阅读 · 0 评论 -
spark UDAF 自定义聚合函数 UserDefinedAggregateFunction 带条件的去重操作
需求:按餐品分组,并求出无优惠金额的订单数。package cd.custom.jde.job.udfimport org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apac...原创 2020-02-12 01:36:12 · 926 阅读 · 0 评论 -
spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql
spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql.数据清洗过程比较复杂,没办法,上游给的屡一样的数据,正则去解析并全量按时间取最新一条去重。每天kafka数据5千万条。1分钟要刷一次,看上去还可以满足。只有屡一样去堆代码了。package biReportJob.streamingimport jav...原创 2019-08-15 17:52:29 · 1255 阅读 · 0 评论