大数据
java的爪哇
在这里和大家交流IT的技术我很高兴
展开
-
spark UDAF根据某列去重求合 distinct sum
spark UDAF根据某列去重求合 distinct sum例子:package spark.groupzbimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.types._import org.apache.spark.sql.{Row, SparkSession}/** * creat...原创 2020-03-20 10:49:19 · 1074 阅读 · 0 评论 -
spark UDAF 自定义聚合函数 UserDefinedAggregateFunction 带条件的去重操作
需求:按餐品分组,并求出无优惠金额的订单数。package cd.custom.jde.job.udfimport org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apac...原创 2020-02-12 01:36:12 · 926 阅读 · 0 评论 -
spark json字符串转dataframe,dataframe结构转json处理
spark json字会串转dataframe,dataframe结构转json处理package mongoimport org.apache.spark.sql.SparkSessionobject InsertTable { def main(args: Array[String]): Unit = { val spark = SparkSession.build...原创 2019-10-22 11:27:52 · 2651 阅读 · 1 评论 -
flume-ng安装,应用,几个简单测试例子!
flume-ng安装,应用,几个简单测试例子!原创 2017-05-13 02:13:19 · 1666 阅读 · 0 评论 -
flume收集日志到mysql
flume收集日志到mysql原创 2017-05-14 20:19:45 · 887 阅读 · 0 评论 -
flume之Taildir Source支持变化追加文件的日志收集
flume之Taildir Source支持变化追加文件的日志收集原创 2017-07-14 14:26:10 · 10770 阅读 · 0 评论 -
spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql
spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql.数据清洗过程比较复杂,没办法,上游给的屡一样的数据,正则去解析并全量按时间取最新一条去重。每天kafka数据5千万条。1分钟要刷一次,看上去还可以满足。只有屡一样去堆代码了。package biReportJob.streamingimport jav...原创 2019-08-15 17:52:29 · 1255 阅读 · 0 评论 -
spark streaming 自定义接收数据源Receiver测试
spark streaming 自定义接收数据源Receiver测试package orderimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * c...原创 2019-08-12 16:45:18 · 1639 阅读 · 0 评论 -
spark 10分钟计算一次mongodb当天日志数据,日志为字符串格式,按订单号去重,取时间最近的订单,优化方案
spark 10分钟计算一次mongodb当天日志数据,日志为字符串格式,按订单号去重,取时间最近的订单,优化方案问题:解析字符串,构建spark dataframe结果集,全量去重,数据量过多,解析复杂,导致从早上1分钟到晚上30分钟才能跑完一次任务。spark streaming的接收源一般是推来的,不像kafka会推过来,然后再根据偏移量来记录刻度,优化方案:按小时去清理数据,把解...原创 2019-08-12 18:39:55 · 657 阅读 · 0 评论