工具类 /** * 返回字符串的所有数字 * @param str * @return */ def returnNumber(str: String): String = { val regEx = "[^0-9]" val p = Pattern.compile(regEx) val m = p.matcher(str) m.r...
scala中json嵌套json 最近在使用神策的时候,要把自己的一部分数据导入神策中遇到问题:1.因为 hdfsImporter 无法把数据直接导入到 kudu 中,用户数据都是存在 kudu 中的。所以会经过 kafka 到 kudu目前机制是,hdfsImporter 导入的用户数据,是会经过 kafka,这个是底层机制,暂时不好修改。解决:需要您那边订阅出来之后,到根据对应的条件,过滤掉用户画像的数据2...
spark graphx 学习 最近在使用图计算 涉及到用户的关系 折腾了好几天第一步:先看下用户生成的neo4j图吧 =====》》》这个是拿了一位大佬的测试数据图生成这个图的逻辑很简单,只需要创建csv文件举例:用户的邀请关系 :csv1 列名user_id:ID,:LABEL (里面是用户ID及我写了一个节点名称)csv2 列名 :START_ID,name,:END_...
scala嵌套数组 flatten可以把嵌套的结构展开. List(List(1,2),List(3,4)).flatten结果: List[Int] = List(1, 2, 3, 4)实例:val flatten_distinct = udf( (xs: Seq[Seq[String]]) => xs.flatten.distinct) df.groupBy("id").ag...
hive sql 每几分钟内统计一次 selectyear(dateday),month(dateday),day(dateday),hour(timeday),floor(minute(timeday)/10),avg(indexValue) from table group by year(dateday),month(dateday),day(dateday),hour(timeday),floor(minute(ti...
SQL 计算每十分钟内的值 SELECT concat( date_format( time, '%Y-%m-%d %H:' ) , floor( date_format( time, '%i' ) /10 ) ) AS c, count(1) FROM table WHERE time between "2019-07-08 00:00:00" and "2019-07-09 00:00:00" GRO...
spark日期处理 详情查看:https://www.cnblogs.com/feiyumo/p/8760846.html以防止文章丢失,我搬运过来。 !!!转载自飞末!!!一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-09 15:20:49.247二、从日期时间中提取字段1....
airflow不同文件夹之间任务调度 之前搜了好多关于airflow不同文件夹里的任务调度依赖,都没有找到,于是公司同事专门花时间研究了一番,拿出来给大家共享。这里插一句 不知道大家是否在公司做了很多事情然后还觉得什么都不会或者在公司只做了一块任务 公司的部门区分很清晰我最近听说朋友的公司还有专门的定时任务设置部门 就还蛮规范的好啦 言归正传 目的在于:很多任务有依赖如果不设置依赖,前面的任务虽然时间...
spark生成自增ID spark生成自增ID代码import org.apache.spark.sql.types.{LongType, StructField} val a = splitDF.schema.add(StructField("id_sk",LongType)) val b = splitDF.rdd.zipWithIndex() val c...
spark报错OutOfMemory 最近在使用spark进行分析的时候 几千万的数据量感觉不多 但是跑起来非常慢内存溢出OutOfMemory1.然后在有使用map的地方 在map之前进行分区repartition2.join会有shuffle产生 shuffle也会产生数据溢出3.map也可以换成 mapPartitions 并且适当调整分区数 200 400 其他的还有很多 我用的就这些 然后任务可以跑出来。...
airflow定时脚本配置 最近在使用airflow的时候 发现配置任务为每周一跑任务的配置并没有生效。捣拾了半天 最后还是回到crontab还有就是任务之间的依赖问题可以使用t7.set_upstream(t6)如果是t7任务在t6 t5 两个任务之后执行t7.set_upstream([t6, t5])意思是 t7在t6之后跑任务在airflow中是这样显示的:t6------t...
mysql中日期转换 一直在使用hive及spark 使用时间戳转换。最近在使用mysql现场处理一些数据的时候,也会用到数据转换。简单的记录,之后想起来回来补充!hive及spark中 : 时间戳(秒级)-->2019-10-10substring(from_unixtimw(timestamp),0,10) 2019-10-10 23:23:23 --> 2019-10-10sub...
airflow使用(一) 最近在使用airflow下载anaconda3 ,然后配置环境变量。pip install airflow 或者 pip install apache-airflow 下载code进行脚本配置,code 配置之后提交git,在Jenkins上面进行构建任务,任务及airflow任务都构建。然后去airflow界面进行查看任务,并且打开任务列表。import airflowfrom ...
根据任意表字段进行分区 前段时间遇到数据 表里面没有适合分区的字段 ,时间紧,不打算写连接池,于是网上搜了下关于这些的文章。发现自己有时候真的是人才 !这段代码必须有用! import java.text.SimpleDateFormat val string = s"${startDate}" + " 00:00:00" val sdf = new SimpleDateFormat("yy...
初次接触airflow及Jenkins 最近在使用tableau的过程中发现 配置过低 监控中cpu利用率高 于是开始使用airflow和Jenkins这里简单看了下 两者都是airbnb开源的 然后前者可以使用python配置任务 后者使用python写框架这里airflow及Jenkins公司都有 进描述下初步使用过程。首先下载code 下载网址:https://code.visualstudio.com ...