了解公司的数据

001,数据核心维度分布
数据核心维度分布主要是指数据中那些比较重要的列的内容分布,比如说用户最基本的年龄,性别和城市信息。这是最常用的数据分布。再引申一点会涉及一些业务内容,比如说各省份的人的订单情况,不同时间段男女活跃信息对比等等,一般分为三个部分:
1,基础资料
2,业务行为
3,用户画像

002,数据口径
1,假设性别字段在表A中的取值是0、1、2(未知、男、女),在表B中取值是0、1、2(男、女、未知),这可能是从不同业务方接入的数据,现在需要将两份数据合并,来算整体的男女比例,如果你不知道两个表的数据口径,会出现什么样的结果?
2,假设你有很多数据都有ip这一个字段,ip为空的时候默认值是0,如果新接入一份数据,它的ip为空的默认值是null或者是-1,你之前的程序能很好地处理完成吗?
3然后数据粒度的问题,同样的年龄字段,在表A中是具体的年龄数值,在表B中是0-20、20-30这样的数值,你直接使用会是什么情况?
关于数据口径的问题,如何避免和解决这些问题可能就是一行代码或者是提前约定好规则就能搞定的,但是我们要先有这种意识,有了这样的意识,我们在接入和处理数据的时候就能提前预知问题或者出现问题了能快速定位和解决

003,血缘分析
1,问题定位。上面的例子,假设你用到了别人的数据,数据血缘分析能快速帮你定位到问题。
2,理解数据。如果你想用其它的数据源,首先要能理解它,不然数据口径能给你带来很大的麻烦。
3,修改某份数据的时候能评估影响的范围大小。比如说现在你的小伙伴要调整自己开发的 Table J,这时候如果他不知道有谁在依赖这张表,冒然修改的话会带来毁灭性的伤害,但是有数据血缘分析的时候,至少能知道谁在使用这份数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值