一周总结8.2

本周成绩总结

工作亮点与成果展示

  • 将int3lab库中的37个lab表中的所有字段名,字段注释,来源表名和部分业务口径,技术口径写入到excel文件。

由于数据量大,选择用python对excel的操作,用分隔符将需要的字段名和字段描述列出来

再基于原建表代码,逐层往上理解代码,找到来源表名并填写。再根据代码逻辑,写出业务逻辑和技术口径

  • 清晰理解大数据模型

红哥负责的是接口模型层,也是我将来需要熟悉的方面,主要负责拍照成MID,对时间字段做处理,去重去白

  • 将int3ass库中的18个ass表中的所有字段名,字段注释,写入到excel文件。

  • CRM的sale_opp_ext表 增加了字段行业BD行业BU,数开的表int3mid.mid_sale_opp_ext_d需要增加相应的字段,最新的数据字典于附件,请查收,需新增字段在截图中已标蓝。这是一个加字段的需求。

由于表中最后4个字段是不变的,所以将倒数第4个字段修改成新增的字段然后逐个往下修改,之后新增这4个不变的字段

  • 基于文档中8个表的数据,写出建表语句

  • 理解全量拍照与增量拍照

如何选择全量拍照还是增量拍照呢

根据效率,如果数据量大于一定值则选择增量拍照,少于一定值选择全量拍照

1.全量拍照

根据HBase数据,从inf表中实时拍照到mid表中

2.增量拍照

增量拍照分为两个表,一个是mid库中的inc表,一个是目标表mid

mid.inc来源于inf.inc,inf.inc是只保留近三天的数据,其中有两个字段要注意一个是时间,另一个是op-type,这个类型包含三种第一个是I,新增 第二个是U,更新 第三个是D,删除。对于前一天有什么增量就填到该表中,然后拍照成mid.inc表,然后对mid.inc表进行排序(时间+主键)选择最新的数据(原因是可能有重复的数据),选取inc表中不含D的数据插入到mid表中,还有些没有变化的数据也要插入mid表中。(脚本逻辑是。。。)(sql逻辑是查询昨天的表中不存在增量表的数据的数据 或者是left join增量表

  • 基于excel文件,在数开平台中建立任务

一、学习

1.熟悉模型表开发规范。

2.熟悉MID全量拍照与增量拍照逻辑,熟悉通用拍照脚本逻辑。

3.熟悉数仓模型分层,各层级分层逻辑。

4.熟悉MID全量拍照与增量拍照逻辑,熟悉通用拍照脚本逻辑

二、需求

5.将int3ass库中的18个ass表中的所有字段名,字段注释,梳理到excel文件。

6.CRM的sale_opp_ext表 增加了字段行业BD行业BU,数开的表int3mid.mid_sale_opp_ext_d需要增加相应的字段,最新的数据字典于附件,请查收,需新增字段在截图中已标蓝。这是一个加字段的需求。

7.基于文档中8个表的数据字典,按照建表模板,新建MSS域MID表

8.在数开平台中建立TDP集群MSS域拍照任务*64个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值