MT-买菜
一、
1.简介
2.项目介绍
3.数据迁移中的校验,如何进行,数据量大不能全量比对如何优化
4.0到1的数仓具体建设内容,ods/dwd/dws分别做了啥,维度退化从哪一步开始
5.数据治理可以做的点
a.表名规范
b.僵尸表治理
c.任务监控
d.数据一致性对比监控
e.字段comment
6.sql+python题
二、
1.维度建模过程
2.数仓分层的好处
3.事实与维度的区分
4.一个sql实现拉链
5.字符串转数组UDF
6.spark对于orc格式文件的分片原理
MT-基础架构部
1.分层设计
2.dwd设计原则,dws设计原则
3.原子指标/派生指标对数据一致性的影响
解析:原子指标/派生指标的概念出自阿里one data的指标体系建设理论,原子指标是不可分割的最小度量,派生指标是时间周期+修饰词+属性+原子指标产生的。举例:在读学员数-原子指标,暑期北京地区在线小班的在读学员数-派生指标,其中暑期-时间周期,北京地区-地区维度属性,在线小班-修饰词,在读学员数-原子指标。
答案:原子指标口径和计算逻辑统一切计算一次,派生指标根据原子指标进行限定于聚合,从而保证数据的一致性。如果没有原子指标,所有指标都从底层开始计算的话会导致计算重复,逻辑差异导致口径不一致。
4.主题域划分依据
答:根据企业部门划分也可以按照业务过程或者业务板块的功能模块划分。
5.hive内存溢出的场景
6.reduce端merge的方式
答案:三种方式,1-内存到内存,2-内存到磁盘,3-磁盘到磁盘
7.事实表类型
答案:事物事实表,周期快照事实表,累积快照事实表,无事实的事实表
8.维度建模的4步
答案:a.选择业务过程。b.声明粒度。c.确认维度。d.确认事实。
9.分层的好处
a.各层处理的逻辑清晰,将问题化繁为简。
b.解耦,方便问题定位,易维护。
c.屏蔽业务数据对上层产出的影响。
d.统一计算口径,减少重复开发。
e.数据流向规范,避免循环依赖的发生。
10.olap引擎
11.如何评价一个模型的好坏
a.高内聚-低耦合:各主题内数据模型要业务高内聚,避免在一个模型耦合其他业务指标,造成模型主题不清晰和性价比低。
b.业务过程清晰,易理解。
c.核型模型相对稳定:如果业务过程运行的比较久,过程相对固定,就要尽快下沉到公共层,形成可复用的核心模型。