数据仓库问题集

对于数据仓库的理解,数据仓库主要为的解决什么问题?

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)。

(为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合理地组织数据以实现分析。对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不适合分析,而整理成面向主题的组织形式才是真正地利于分析的,比如将点击流日志整理成页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,这样可以明显提升分析的效率。

数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域,数据仓库排除对决策无用的数据,提供特定主题的简明视图。)

数据仓库模型的理解?

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。

数据仓库分层设计的好处是什么?

数据仓库一般要进行分层的设计,其能带来五大好处:

清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。

数据血缘追踪:能够快速准确地定位到问题,并清楚它的危害范围。

减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。

把复杂问题简单化:将复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。当数据出现问题之后,不用修复所有的数据,只需要从有问题的步骤开始修复。

屏蔽原始数据的异常:不必改一次业务就需要重新接入数据。

另外的答案:

1)用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据。

2)如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。

3)通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

数据建模考虑的点是什么,然后随机给了你一个业务场景问问你如果建立模型大致怎么设计?

维度建模的过程,给了一个直播场景,让我如何去建维度模型。

如何深入浅出理解数据仓库建模? - 知乎

对于数据中台的理解,和数据仓库和数据湖的区别?

数据仓库、数据湖、数据中台终于有人说清楚了,建议收藏! - 云+社区 - 腾讯云https://cloud.tencent.com/developer/article/1513820

SORT BY和ORDER BY的区别

Sort By、Order By、Cluster By及Distribute By的区别 - 大数据面试宝典_大数据面试题_ 大数据时代_大数据培训_ 大数据技术与应用

order by是全局排序,sort by是每个reduce排序,如果reduce数目为1,则order by 等同于 sort by。

分桶和PARTITION的区别,并且分桶和PARTITION的各自机制是什么 

Hive分区与分桶 - 知乎

HIVE数据倾斜的原理和不同场景下的解决方案是什么,MPP架构数据下的数据倾斜解决方案是什么?

环形缓冲区了不了解?说一下他的那个阈值高低的影响

哪些操作引起shuffle

spark里的reduce by key和group by key两个算子在实现上的区别并且说一下性能

spark和flink对比  为什么spark streaming做不到毫秒级响应

知道hive的sql语句怎么转成MR可执行任务的吗

kafka大致的架构   为什么高可用   高吞吐   zero copy原理

有没有写过hive的UDF   怎么写的

计算框架了解吗  flink的checkpoint机制

spark的rdd原理。spark怎么把你的算子转化成rdd的?rdd之间的一些关系。rdd怎么提交到内存上计算的。

DWS层和ADS层有什么区别

hashmap的结构

对元数据管理和数据资产管理的理解?

你认为你来做这个岗位的优势和劣势是什么?

谈谈你对这个岗位所需技能的理解,假如你来到这个岗位未来半年你的工作思路是什么?

以你对传统数仓的理解,什么样的业务会有实时性的需求?

针对蚂蚁金服的具体业务部门,让你谈一谈你对这块业务的理解和数据如何给业务产生价值?

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值