【离线数仓面试】数仓架构:架构、输入输出、流程、框架选型及版本、项目集群规模、分层架构、分层原因...

1、数仓架构介绍

神策数据:

云上数仓:https://www.aliyun.com/solution/datavexpo/datawarehouse

2、数仓的输入输出

输入系统:用户埋点行为数据、后台产生的业务数据、爬虫数据。

输出系统(BI):报表系统、大屏展示、用户画像系统、推荐系统

3、系统流程

4、框架选型

1)Apache:运维麻烦,需要对组件兼容性进行维护

2)CDH:国内使用最多,不开源,对中、小公司没有影响(建议使用)

3)HDP:开源,可以进行二次开发,但是没有CDH稳定,国内使用较少

5、版本选择

Apache、CDH

6、集群规模(实习项目也可)

每条消息1K,压缩后不0.1K

Kafka所用的空间计算

 

7、数仓分层架构

 

ods 原始数据层 存放原始数据,保持原貌不做处理

dwd 明细数据层 对ods层数据清洗(去除空值,脏数据,超过极限范围的数据)

dws 服务数据层 轻度聚合  形成宽表

ads 应用数据层 具体需求

8、为什么对数仓分层

分层优点:复杂问题简单化、清晰数据结构(方便管理)、增加数据的复用性、隔离原始数据(解耦)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值