SQL进阶技巧:埋点日志事件缺失值填充 | 近距离有效的数据缺失值填充问题

135 篇文章 20 订阅 ¥29.90 ¥99.00

目录

0 引言

1 问题描述

2 数据准备 

3 问题分析

4 小结


0 引言

   在用户行为分析中,我们往往需要对用户浏览行为进行分析或获客的渠道进行分析,在埋点日志中用户一个session中会浏览不同的界面,会进行url的跳转,在前端埋点时,往往将用户刚进入界面时的url进行存储,后续在当前页面内的url不会重复存储,这样就会造成大量的空值存在,在数仓建设中我们在dwd层往往需要对数据进行清洗,希望通过对缺失值填充,以满足后续分析的需要。针对用户浏览渠道的缺失,我们往往采用获取当前用户当前行最近的一条数据进行填充,下面我们将该问题进行抽象,模型化,来详细讲解该类问题的处理思路。

1 问题描述

如下图所示,有一张埋点事件表(event),表中渠道id存在部分为空的数据,现在根据如下规则将缺失的数据补充完整。

规则:渠道id为空的,补充为该用户最近一个不为空的渠道id

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值