模型宽表搭建过程中遇到的问题——代码

最新推荐文章于 2024-01-29 11:13:16 发布

置顶 qq_41945142

最新推荐文章于 2024-01-29 11:13:16 发布

阅读量975

点赞数 2

分类专栏：客户画像数据建模标签模型宽表

本文链接：https://blog.csdn.net/qq_41945142/article/details/95007485

版权

5 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

进入画像部门之后，我前后为模型组同事拼接了20多张模型宽表，每张宽表的标签数量不等。小的在100个字段左右，取数的表二十个左右；大的超过一千个字段，取数的表超过50个。

业务方一般会提供给我们一个详细开的发文档，说明各个标签的英文名，中文备注，数据类型，和取数表，有时也有可能部分标签提供逻辑需要自己开发。

当我们收到开发文档后，千万不要急着去敲代码，不然你会掉进深渊，我们要做一下的工作。

1.检查各个标签在表中是否存在，检查标签的数据是否有值，和值得分布。具体方法，取一个分区，针对字符型标签group by一下看各个值得分布情况，针对数值型可以用percentile_approx检查一下分位数；

2.完成了上一个步骤的检查后，和业务沟通相关的问题：

3.架构，拆表。为了提供代码的执行效率，便于检查错误，便于修改代码，我们通常的将标签的取数拆分到多个不同的表中，然后再合在一起。

拆表：依据标签信息维度的不同，将所有的标签拆分到不同的表中。比如客户识别信息，客户价值，客户行为等等。标准，尽量一个表的取数表不要超过三十个，标签数量不要超过100个。
确认基表：这个工作是非常重要的，和业务确认好整个宽表将以哪个字段为主键（客户号，手机号），另外要加入后面和其他表关联时候的字段，比如客户号，手机号码，微信open_id，销售系统id,其他外部平台id等。

3.我们要开始拼接宽表了，但是这个时候我们还是不会用subline,或者notpad++去敲代码，这个时候最有用的工具是Excel。

关注

专栏目录