spark集群
cc1sweet
小菜菜
展开
-
shell脚本
最近 任务太多! 手动跑了很多任务。太费事了终于有时间现在写个脚本 , 记录一下#!/usr/bin/env bashbinDir=../binfor i in {"2018-08-06","2018-08-13","2018-08-20","2018-08-27","2018-09-03","2018-09-10","2018-09-17",&q原创 2018-10-29 20:34:32 · 99 阅读 · 0 评论 -
spark报错OutOfMemory
最近在使用spark进行分析的时候 几千万的数据量感觉不多 但是跑起来非常慢内存溢出OutOfMemory1.然后在有使用map的地方 在map之前进行分区repartition2.join会有shuffle产生 shuffle也会产生数据溢出3.map也可以换成 mapPartitions 并且适当调整分区数 200 400 其他的还有很多 我用的就这些 然后任务可以跑出来。...原创 2019-01-09 20:14:15 · 1046 阅读 · 0 评论 -
airflow不同文件夹之间任务调度
之前搜了好多关于airflow不同文件夹里的任务调度依赖,都没有找到,于是公司同事专门花时间研究了一番,拿出来给大家共享。这里插一句 不知道大家是否在公司做了很多事情然后还觉得什么都不会或者在公司只做了一块任务 公司的部门区分很清晰我最近听说朋友的公司还有专门的定时任务设置部门 就还蛮规范的好啦 言归正传 目的在于:很多任务有依赖如果不设置依赖,前面的任务虽然时间...原创 2019-06-28 16:08:11 · 1086 阅读 · 0 评论 -
scala嵌套数组
flatten可以把嵌套的结构展开. List(List(1,2),List(3,4)).flatten结果: List[Int] = List(1, 2, 3, 4)实例:val flatten_distinct = udf( (xs: Seq[Seq[String]]) => xs.flatten.distinct) df.groupBy("id").ag...原创 2019-08-15 14:47:18 · 1323 阅读 · 0 评论 -
工具类
/** * 返回字符串的所有数字 * @param str * @return */ def returnNumber(str: String): String = { val regEx = "[^0-9]" val p = Pattern.compile(regEx) val m = p.matcher(str) m.r...原创 2019-09-05 14:27:31 · 144 阅读 · 0 评论