ods层数据到dwd层的处理需求说明

目录

1 清洗过滤

2 数据解析

3 SESSION分割

4 数据规范处理

5 数据集成(本质上是维度退化)

6 生成全局用户标识


3 SESSION分割


1 清洗过滤

  1. 去除json数据中的废弃字段,因为前端开发人员更新了埋点设计方案之后,可能有些没有用的字段也会保留
  2. json格式不正确
  3. 过滤掉缺少关键字段的记录(deviceId、properties、eventId、sessionId缺任何一个都不行)sessionid是一个会话的key,浏览器第一次访问服务器会在服务器端生成一个session,有一个sessionid和它对应。tomcat生成的sessionid叫做jsessionid。
  4. 不符合要求的时间段的,因为数据存在延迟

2 数据解析

json字段解析成parquet格式

3 SESSION分割

  1. 对于web端日志,按天然session分割,不需要处理
  2. 对于app端日志,因为手机的程序退出去了,他后台会进行一个会话保持,再打开也就是恢复前台的时候。session没有变,因此要按时间间隔时间切割(业内通用:30分钟)
  3. 对于wx小程序,同app日志

4 数据规范处理

  • Boolean字段,在数据中有使用-1/0/1标识的,也有使用true/false表示的,统一为Y/N/U
  • 字符串类型再短,在数据中有空串,有null值,也有\N,统一为null值
  • 日期格式统一,2020/9/2        2020-9-2        2020-09-02都统一成YYYY-MM-dd
  • 小数类型,统一成decimal
  • 字符串,统一成string
  • 时间戳,统一成bigint
  • .....

5 数据集成(本质上是维度退化)

  1. 日志中的经纬度解析成省市县信息:为了方便后续的地域维度分析
  2. 将日志中的IP地址解析成省市县信息

6 生成全局用户标识

为每个用户每一条访问记录;打上一个全局唯一的用户表示

(重点,给匿名访问记录也打上正确的 id标识)

有什么作用:选取合适的用户标识可以提高用户行为分析的准确性

7 保存结果

将数据输出为orc格式,压缩格式为snappy

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值