![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scala
java的爪哇
在这里和大家交流IT的技术我很高兴
展开
-
sbt多环境打包自定义插件
好久没写博客了,但这个sbt太坑了,本来一个小小的功能,看了好久的文档才弄出来。sbt打包scala语言 sarpk jar时 多环境的的问题。于是自已写了一个插件具体代码请查看github :https://github.com/liangrui1988/sbtEnvironment...原创 2019-06-05 13:04:26 · 327 阅读 · 0 评论 -
scala spark 手动构建DataFrame复杂类型,arrayType,StructType
scala spark 手动构建DataFrame复杂类型,arrayType,StructTypepackage biReportJob.ztimport org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.functions._import org.a...原创 2019-07-29 18:35:52 · 7326 阅读 · 0 评论 -
spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql
spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql.数据清洗过程比较复杂,没办法,上游给的屡一样的数据,正则去解析并全量按时间取最新一条去重。每天kafka数据5千万条。1分钟要刷一次,看上去还可以满足。只有屡一样去堆代码了。package biReportJob.streamingimport jav...原创 2019-08-15 17:52:29 · 1237 阅读 · 0 评论 -
spark streaming 自定义接收数据源Receiver测试
spark streaming 自定义接收数据源Receiver测试package orderimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * c...原创 2019-08-12 16:45:18 · 1637 阅读 · 0 评论 -
spark 10分钟计算一次mongodb当天日志数据,日志为字符串格式,按订单号去重,取时间最近的订单,优化方案
spark 10分钟计算一次mongodb当天日志数据,日志为字符串格式,按订单号去重,取时间最近的订单,优化方案问题:解析字符串,构建spark dataframe结果集,全量去重,数据量过多,解析复杂,导致从早上1分钟到晚上30分钟才能跑完一次任务。spark streaming的接收源一般是推来的,不像kafka会推过来,然后再根据偏移量来记录刻度,优化方案:按小时去清理数据,把解...原创 2019-08-12 18:39:55 · 629 阅读 · 0 评论