案例展示
L姓数据工程师
人不远行身不壮,火不烧山地不肥
展开
-
Flume组件——grouping processor(failover sink processor—实现级联模式下的高可用)
Flume中有多个组件,其中最重要的一个组件就是grouping processor / sink processorsink process原创 2020-10-08 15:31:51 · 343 阅读 · 0 评论 -
Flume案例——自定义interceptor处理数据,并使用mutilplexing selector将数据分路存储
实际需求:将多个日志文件中的数据分类处理,采集出不同业务的数据,然后分路存储主要知识点:自定义interceptor 使用multiplexing selector将数据分路存储1.模拟日志生成器可以写一个shell脚本,模拟生成日志数据,规定日志数据格式:uid,behavior,type,timestampwhile truedoif [ $(($RANDOM % 2)) -eq 0]thenecho "u$RANDOM,e1,shop,`date +%s`000" &原创 2020-10-08 09:37:08 · 329 阅读 · 0 评论 -
SparkSQL案例——用SQL和DSL两种语法格式,求出用户连续登录天数
实验数据:uid,dtguid01,2018-02-28guid01,2018-03-01guid01,2018-03-05guid01,2018-03-02guid01,2018-03-04guid01,2018-03-06guid01,2018-03-07guid02,2018-03-01guid02,2018-03-03guid02,2018-03-02guid02,2018-03-061.SQL风格注意:读取数据:针对不同的文件格式读取数据,获得df 创建.原创 2020-10-04 12:59:33 · 552 阅读 · 0 评论 -
SparkSQL案例——用SQL和DSL两种语法格式,求出用户登录间隔小于10分钟时一段时间内的总累计流量
实验数据:uid,sdt,edt,flow1,2020-02-18 14:20:30,2020-02-18 14:46:30,201,2020-02-18 14:47:20,2020-02-18 15:20:30,301,2020-02-18 15:37:23,2020-02-18 16:05:26,401,2020-02-18 16:06:27,2020-02-18 17:20:49,501,2020-02-18 17:21:50,2020-02-18 18:03:27,602,2020.原创 2020-10-04 12:57:19 · 2630 阅读 · 0 评论 -
Spark案例 — 按照ip地址规则与日志数据分析各省份各城市出现次数(使用广播变量)
代码编写使用的是scala1.首先定义两个方法ip2Long:将ip地址转为十进制的Long binarySearch:二分查找object Utils { /** * 将 String 类型的 ip 转为 Long 类型的 十进制ip * @param ip * @return */ def ip2Long(ip: String): Long = { //将数据按照 . 分割开 //192.168.5.1 val splited.原创 2020-09-29 11:54:30 · 879 阅读 · 2 评论