cc1sweet
码龄7年
关注
提问 私信
  • 博客:42,045
    动态:14
    42,059
    总访问量
  • 30
    原创
  • 1,064,640
    排名
  • 15
    粉丝
  • 0
    铁粉

个人简介:小菜菜

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2017-12-03
博客简介:

Kelovemn的记录

查看详细资料
个人成就
  • 获得6次点赞
  • 内容获得9次评论
  • 获得16次收藏
创作历程
  • 17篇
    2019年
  • 14篇
    2018年
成就勋章
TA的专栏
  • java
  • es
  • 神策
    1篇
  • 数据分析SQL
    8篇
  • zeppelin
    1篇
  • Mac终端及基础
    1篇
  • tableau使用
    1篇
  • 数据分析
    7篇
  • spark集群
    4篇
  • airflow
    2篇
  • sparkcore
    1篇
  • graphx
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

idea生成main方法快捷键

输入psvm
原创
发布博客 2019.09.09 ·
662 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

工具类

/** * 返回字符串的所有数字 * @param str * @return */ def returnNumber(str: String): String = { val regEx = "[^0-9]" val p = Pattern.compile(regEx) val m = p.matcher(str) m.r...
原创
发布博客 2019.09.05 ·
156 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala中json嵌套json

最近在使用神策的时候,要把自己的一部分数据导入神策中遇到问题:1.因为 hdfsImporter 无法把数据直接导入到 kudu 中,用户数据都是存在 kudu 中的。所以会经过 kafka 到 kudu目前机制是,hdfsImporter 导入的用户数据,是会经过 kafka,这个是底层机制,暂时不好修改。解决:需要您那边订阅出来之后,到根据对应的条件,过滤掉用户画像的数据2...
原创
发布博客 2019.08.28 ·
1219 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark graphx 学习

最近在使用图计算 涉及到用户的关系 折腾了好几天第一步:先看下用户生成的neo4j图吧 =====》》》这个是拿了一位大佬的测试数据图生成这个图的逻辑很简单,只需要创建csv文件举例:用户的邀请关系 :csv1 列名user_id:ID,:LABEL (里面是用户ID及我写了一个节点名称)csv2 列名 :START_ID,name,:END_...
原创
发布博客 2019.08.22 ·
266 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala嵌套数组

flatten可以把嵌套的结构展开. List(List(1,2),List(3,4)).flatten结果: List[Int] = List(1, 2, 3, 4)实例:val flatten_distinct = udf( (xs: Seq[Seq[String]]) => xs.flatten.distinct) df.groupBy("id").ag...
原创
发布博客 2019.08.15 ·
1345 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

查询用户IP及手机号城市

ip38.com
原创
发布博客 2019.07.25 ·
1651 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

hive sql 每几分钟内统计一次

selectyear(dateday),month(dateday),day(dateday),hour(timeday),floor(minute(timeday)/10),avg(indexValue) from table group by year(dateday),month(dateday),day(dateday),hour(timeday),floor(minute(ti...
原创
发布博客 2019.07.23 ·
3333 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

SQL 计算每十分钟内的值

SELECT concat( date_format( time, '%Y-%m-%d %H:' ) , floor( date_format( time, '%i' ) /10 ) ) AS c, count(1) FROM table WHERE time between "2019-07-08 00:00:00" and "2019-07-09 00:00:00" GRO...
原创
发布博客 2019.07.16 ·
1695 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

spark日期处理

详情查看:https://www.cnblogs.com/feiyumo/p/8760846.html以防止文章丢失,我搬运过来。 !!!转载自飞末!!!一、获取当前时间1.current_date获取当前日期2018-04-092.current_timestamp/now()获取当前时间2018-04-09 15:20:49.247二、从日期时间中提取字段1....
转载
发布博客 2019.07.02 ·
3134 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

airflow不同文件夹之间任务调度

之前搜了好多关于airflow不同文件夹里的任务调度依赖,都没有找到,于是公司同事专门花时间研究了一番,拿出来给大家共享。这里插一句 不知道大家是否在公司做了很多事情然后还觉得什么都不会或者在公司只做了一块任务 公司的部门区分很清晰我最近听说朋友的公司还有专门的定时任务设置部门 就还蛮规范的好啦 言归正传 目的在于:很多任务有依赖如果不设置依赖,前面的任务虽然时间...
原创
发布博客 2019.06.28 ·
1117 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark写数据到mysql 并进行更新

因为spark没有直接的update操作 所以我这里采用md5 进行和前一天的数据对比 有变化的更新进去只是说个思路哈具体的实现可以搜下md5使用
原创
发布博客 2019.06.28 ·
2065 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

excel设置每周一的日期

=DATE(YEAR(A2),MONTH(A2),DAY(A2)+7)a2:先给一个日期举例说明:这里A2是我先给的一个周一的日期
原创
发布博客 2019.06.28 ·
4899 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

spark生成自增ID

spark生成自增ID代码import org.apache.spark.sql.types.{LongType, StructField} val a = splitDF.schema.add(StructField("id_sk",LongType)) val b = splitDF.rdd.zipWithIndex() val c...
原创
发布博客 2019.05.22 ·
1408 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark报错OutOfMemory

最近在使用spark进行分析的时候 几千万的数据量感觉不多 但是跑起来非常慢内存溢出OutOfMemory1.然后在有使用map的地方 在map之前进行分区repartition2.join会有shuffle产生 shuffle也会产生数据溢出3.map也可以换成 mapPartitions 并且适当调整分区数 200 400 其他的还有很多 我用的就这些 然后任务可以跑出来。...
原创
发布博客 2019.01.09 ·
1070 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

airflow定时脚本配置

最近在使用airflow的时候 发现配置任务为每周一跑任务的配置并没有生效。捣拾了半天 最后还是回到crontab还有就是任务之间的依赖问题可以使用t7.set_upstream(t6)如果是t7任务在t6 t5 两个任务之后执行t7.set_upstream([t6, t5])意思是 t7在t6之后跑任务在airflow中是这样显示的:t6------t...
原创
发布博客 2019.01.09 ·
1858 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

mysql中日期转换

一直在使用hive及spark 使用时间戳转换。最近在使用mysql现场处理一些数据的时候,也会用到数据转换。简单的记录,之后想起来回来补充!hive及spark中 : 时间戳(秒级)-->2019-10-10substring(from_unixtimw(timestamp),0,10) 2019-10-10 23:23:23 --> 2019-10-10sub...
原创
发布博客 2019.01.09 ·
520 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

airflow使用(一)

最近在使用airflow下载anaconda3 ,然后配置环境变量。pip install airflow 或者 pip install apache-airflow 下载code进行脚本配置,code 配置之后提交git,在Jenkins上面进行构建任务,任务及airflow任务都构建。然后去airflow界面进行查看任务,并且打开任务列表。import airflowfrom ...
原创
发布博客 2019.01.03 ·
766 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

根据任意表字段进行分区

前段时间遇到数据 表里面没有适合分区的字段 ,时间紧,不打算写连接池,于是网上搜了下关于这些的文章。发现自己有时候真的是人才 !这段代码必须有用! import java.text.SimpleDateFormat val string = s"${startDate}" + " 00:00:00" val sdf = new SimpleDateFormat("yy...
原创
发布博客 2018.12.19 ·
1698 阅读 ·
0 点赞 ·
3 评论 ·
1 收藏

初次接触airflow及Jenkins

最近在使用tableau的过程中发现 配置过低  监控中cpu利用率高 于是开始使用airflow和Jenkins这里简单看了下 两者都是airbnb开源的 然后前者可以使用python配置任务 后者使用python写框架这里airflow及Jenkins公司都有 进描述下初步使用过程。首先下载code 下载网址:https://code.visualstudio.com ...
原创
发布博客 2018.12.18 ·
1842 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多