大数据面试3分钟自我介绍_面试真经 | 大数据/数仓面试灵魂30问(附答案 | 已斩offer)...

本文是一位求职者分享的大数据面试经验,涵盖了数据仓库构建、数据中台、实时数仓、数据治理等方面的问题及答案,强调了数据的准确性、元数据管理、数仓分层的重要性,以及面对面试的态度和技巧。
摘要由CSDN通过智能技术生成

作者:7.7

编辑:紫霞仙子

云神原文:

作者寄语:

最近正好在找工作,看到社区发的面试文章受益匪浅()。梳理文章每一个题目后,顺利拿到offer,故总结梳理答疑整理了这篇文章,以表感激,同时希望能帮到更多的小伙伴们。

以下作答纯属个人见解,如有误解,还望不吝指教!大家一起学习,一起进步!(笔芯:可以进社区数仓群,大家一起讨论~)

本着认真严谨的态度,作答解读了部分题目,同时也给出了一些高质量的参考链接。其中省略的有的是鄙人不了解的,也有一些概念性的问题,可以自行查找一下。

面试的心得体会:

在面试过程中,也是一种自我学习和提升的机会,态度要谦和,知之为知之,面试题目又不了解或者不会的纯属正常(基础除外)。 因此一道题目答不上来不要自乱阵脚,在整个面试过程中体现出自己团队合作的认知以及自我独当一面的能力。有的时候面试不只看技术,更看眼缘。

0.自我介绍

答:1).简单的自我介绍,突出自我优势(证书、学历、团队等)

2).项目介绍(重中之重)

3).显目中承担的工作,以及模块。

4).如若非本专业,可如实回答(是否培训)

5).长的帅或漂亮,前四条都可以忽略

1. 什么是数据仓库?如何构建数据仓库?

可参考:

(如果这个问题回答的好,后面很多问题都不需要再问)

答:数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它用于支持企业或组织的决策分析处理。

数仓构建:

1). 前期业务调研需求调研 数据调研 技术选型

2). 提炼业务模型,总线矩阵,划分主题域;

3). 定制规范命名规范、开发规范、流程规范

4). 数仓架构分层:一般分为

操作数据层(ODS)、公共维度模型层(CDM)和应用数据层(ADS),其中公共维度模型层包括明细数据层(DWD和汇总数据层(DWS)

公共维度模型层(CDM):存放明细事实数据、维表数据及公共指标汇总数据,其中明细事实数据、维表数据一般根据ODS层数据加工生成:公共指标汇总数据一般根据维表数据和明细事实数据加工生成。

CDM层又细分为DWD层和DWS层,分别是明细数据层和汇总数据层,采用维度模型方法作为理论基础,更多地采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联,提高明细数据表的易用性:同时在汇总数据层,加强指标的维度退化,采取更多的宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工。

应用数据层(ADS):存放数据产品个性化的统计指标数据,根据CDM层与ODS层加工生成。

5).选择合适的数据模型,不同的行业涉选取的模型近不相同,合适的模型,更利于在数据存储,计算,开发,安全,以及数据查询的效率,更能体现数仓的价值。

综上所述:数仓建设这个问题的范围过于大,它包含了一个0-1的过程,此处只做大方面的回答,具体的细节问题还需另外讨论。

2.如何建设数据中台?可简单说下对中台理解与思路

答:省略(鄙人对中台知之甚少)

可参考:

3.数据仓库、数据中台、数据湖的理解

答:数据仓库 分而治之 对象BI

数据湖 无为而治 对象AI

数据中台 一统天下 对象DataAPI(组织架构)

可参考:

4.传统数仓的程度(建模工具、ETL工具、BI报表工具、调度系统)

答:

建模工具:powerDesiger、Erwin、Visio

ETL工具: kettle/informatic(主流的两款) 等等

BI报表工具:superset、cboard、redash、帆软BI/QuickBI/PowerBI 等等

调度系统:airflow、azkaban、ooize、xxl-job、dolphinscheduler、Zeus、hera、TASKCTL/自研平台 等等

参考:

5.传统数仓和大数据数仓的异同?有哪些大的变化?

答:其区别主要数数仓数据存储的地方不同,传统数仓数据存储在mysql/oracle等关系型数据库上,大数据数仓存储在hadoop平台的hive中(实际上是HDFS中),当然也有其他的数仓产品比如TD、greenplum等。

我接触过的传统数仓技术架构是使用kettle做ETL工具,数据保存在mysql中,使用MSTR+java开发的数据平台做可视化,随着数据量逐渐增大,事实表条数达到千万级,kettle逐渐变得不稳定,

单表做拉链的任务的执行时间也指数级增加,从1/2h到了6/7h。

公司考虑使用hadoop平台的hive做数据仓库,报表层数据保存在mysql中,使用tableau做报表系统,这样不用担心存储问题、计算速度也大大加快了。

在此基础上,公司开放了hue给各个部门使用,这样简单的提数工作可以由运营自己来操作。

使用presto可以做mysql、hive的跨库查询,使用时要注意presto的数据类型非常严格。

6.印象最深刻的项目?为什么?亮点与优势?

答:回答的方向两方面</

  • 6
    点赞
  • 69
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值