银行数据仓库的架构,大数据开发面试题目

1. 数据仓库的定义

官方定义
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。
这个定义的确官方,但是却指出了数据仓库的四个特点。
特点
面向主题:数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,其他的无关细节数据将被排除掉
集成的:从不同的数据源采集数据到同一个数据源,此过程会有一些ETL操作
随时间变化:关键数据隐式或显式的基于时间变化
信息本身相对稳定:数据装入以后一般只进行查询操作,没有传统数据库的增删改操作
效率足够高:数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,目前普遍的数据展现方式为T+1,即当日处理昨日的业务数据。
数据质量:基于数据仓库的应用所面对的一般为企业决策层用户,所以对数据仓库提供的各种信息,肯定要准确的数据;但由于数据源有脏数据或者代码不严谨,所以数据仓库流程通常分为多个步骤,包括数据抽取,清洗,转换,装载,查询,展现等等;其中数据清洗则主要对抽取过来各数据源的脏数据和不规范数据进行统一标准化。
扩展性:有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用花太多时间去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于因为数据源的变动而导致用户应用功能的频繁变动。

个人理解
数据仓库就是整合多个和多种数据源的历史和现在的数据进行标准化整合,统一口径,细粒度的、多维度的分析,帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。唤醒企业沉睡多年的历史数据。

2. 数据仓库的用途

1.整合公司所有业务数据,建立统一的数据中心
2.产生业务报表,用于作出决策
3.为网站运营提供运营上的数据支持
4.可以作为各个业务的数据源,形成业务数据互相反馈的良性循环
5.分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果
6.开发数据产品,直接或间接地为公司盈利

3. 数据仓库架构

3.1 数仓分层原则

优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲数仓要分层,那数仓分几层最好?
目前市场上主流的分层方式眼花缭乱,不过看事情不能只看表面,还要看到内在的规律,不能为了分层而分层,没有最好的,只有适合的。
分层是以解决当前业务快速的数据支撑为目的,为未来抽象出共性的框架并能够赋能给其他业务线,同时为业务发展提供稳定、准确的数据支撑,并

  • 14
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值