1、清洗过滤
需求:
- 过滤json中无用的废弃字段
- 过滤日志中全为空(uid|imei|uuid|mac|androidid|ip)的记录
- 过滤日志中缺少的关键字段(event/eventid/sessionid缺任何一个都不行)的记录
- 过滤json格式不正确的(脏数据)
2、数据解析
数据扁平化处理,将之前一个个嵌套的json存储为一个一维的,规范的表结构作数据准备
3、数据集成
- 将日志的GPS与之前准备好的字典信息补完整,方便后面做地域的维度分析
- 集成商圈信息,方便后期地域维度分析
4、数据修正
- guid的回补,统一的guid
- 字段名称规范化:如在不同的日志中同一含义的可能存在不一样的名称
- 字段的度量规范:如时间戳统一用秒级
- 字段类型规范化:如时间戳统一用长整型
5、导出结果
统一采用spark:导出parquet,压缩用snappy