面试记录-数仓

MT-买菜

一、

1.简介
2.项目介绍
3.数据迁移中的校验,如何进行,数据量大不能全量比对如何优化
4.0到1的数仓具体建设内容,ods/dwd/dws分别做了啥,维度退化从哪一步开始
5.数据治理可以做的点
    a.表名规范
    b.僵尸表治理
    c.任务监控
    d.数据一致性对比监控
    e.字段comment
6.sql+python题

二、

1.维度建模过程
2.数仓分层的好处
3.事实与维度的区分
4.一个sql实现拉链
5.字符串转数组UDF
6.spark对于orc格式文件的分片原理

MT-基础架构部


1.分层设计

2.dwd设计原则,dws设计原则

3.原子指标/派生指标对数据一致性的影响
    解析:原子指标/派生指标的概念出自阿里one data的指标体系建设理论,原子指标是不可分割的最小度量,派生指标是时间周期+修饰词+属性+原子指标产生的。举例:在读学员数-原子指标,暑期北京地区在线小班的在读学员数-派生指标,其中暑期-时间周期,北京地区-地区维度属性,在线小班-修饰词,在读学员数-原子指标。
    答案:原子指标口径和计算逻辑统一切计算一次,派生指标根据原子指标进行限定于聚合,从而保证数据的一致性。如果没有原子指标,所有指标都从底层开始计算的话会导致计算重复,逻辑差异导致口径不一致。

4.主题域划分依据
    答:根据企业部门划分也可以按照业务过程或者业务板块的功能模块划分。

5.hive内存溢出的场景

6.reduce端merge的方式
    答案:三种方式,1-内存到内存,2-内存到磁盘,3-磁盘到磁盘

7.事实表类型
    答案:事物事实表,周期快照事实表,累积快照事实表,无事实的事实表

8.维度建模的4步
    答案:a.选择业务过程。b.声明粒度。c.确认维度。d.确认事实。

9.分层的好处
    a.各层处理的逻辑清晰,将问题化繁为简。
    b.解耦,方便问题定位,易维护。
    c.屏蔽业务数据对上层产出的影响。
    d.统一计算口径,减少重复开发。
    e.数据流向规范,避免循环依赖的发生。

10.olap引擎

11.如何评价一个模型的好坏
    a.高内聚-低耦合:各主题内数据模型要业务高内聚,避免在一个模型耦合其他业务指标,造成模型主题不清晰和性价比低。
    b.业务过程清晰,易理解。
    c.核型模型相对稳定:如果业务过程运行的比较久,过程相对固定,就要尽快下沉到公共层,形成可复用的核心模型。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
回答: 数仓分层理论是数据仓库设计中的一个重要概念。根据数据仓库的目标和使用需求,数据仓库可以划分为不同的层次。常见的数仓分层理论包括三层架构和四层架构。 三层架构包括原子层、集成层和应用层。原子层是数据仓库中最底层的层次,负责采集和存储原始数据。集成层是在原子层的基础上进行数据清洗、整合和转换,使得数据能够被应用层使用。应用层是最上层的层次,提供给用户各种报表、分析和决策支持的功能。 四层架构在三层架构的基础上增加了数据存储层。数据存储层是为了提高数据查询和分析的性能而引入的,通常使用列式存储或者索引技术来优化数据的存储和访问。 数仓分层理论的目的是将数据仓库的功能和需求进行划分,使得数据仓库的设计更加灵活和可扩展。不同层次的数据可以根据需要进行更新和维护,同时也方便用户根据自己的需求进行数据查询和分析。数仓分层理论在数据仓库的设计和实施中起到了重要的指导作用。\[2\]\[3\] #### 引用[.reference_title] - *1* [大数据面试题--数仓](https://blog.csdn.net/weixin_42759988/article/details/123074673)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [原创|3万字剖析数仓面试题,珍藏版](https://blog.csdn.net/huzechen/article/details/123288181)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值