综合项目1-08 数据ETL处理:各种埋点日志

1、清洗过滤

需求:

  • 过滤json中无用的废弃字段
  • 过滤日志中全为空(uid|imei|uuid|mac|androidid|ip)的记录
  • 过滤日志中缺少的关键字段(event/eventid/sessionid缺任何一个都不行)的记录
  • 过滤json格式不正确的(脏数据)

 

2、数据解析

数据扁平化处理,将之前一个个嵌套的json存储为一个一维的,规范的表结构作数据准备

 

3、数据集成

  • 将日志的GPS与之前准备好的字典信息补完整,方便后面做地域的维度分析
  • 集成商圈信息,方便后期地域维度分析

4、数据修正

  • guid的回补,统一的guid
  • 字段名称规范化:如在不同的日志中同一含义的可能存在不一样的名称
  • 字段的度量规范:如时间戳统一用秒级
  • 字段类型规范化:如时间戳统一用长整型

5、导出结果

统一采用spark:导出parquet,压缩用snappy

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

pub.ryan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值