关于数据仓库的自我认知

本文详细介绍了数据仓库的各个方面,包括离线数据仓库的T+1处理、数据仓库系统的结构、数据处理的两大类(OLTP与OLAP)、ETL过程以及数仓中的表类型和重要概念。数据仓库是一个集成、稳定的、反映历史变化的数据集合,用于支持决策分析。文章还探讨了数据清洗、数据转换和数仓分层等关键环节。
摘要由CSDN通过智能技术生成

离线数据仓库 (T+1处理昨天的数据 )

  数据的生命周期:数据采集-数据处理-数据挖掘-数据分析-数据可视化

数据仓库系统的结构

从字义上看, “仓库”可以想像成一所大房子,高高的货架,合理的出入路线,是一种集中存储货物的地方,一般顾客是不来参观访问的; 而说到“集市”,就容易联想到空旷的场地,川流不息,大小商户摆出摊子,卖衣物的、卖烧饼及卖艺的,是让顾客来消费的地方。 具体来说,数据仓库仅仅是提供存储的,提供一种面向数据管理的服务,不面向最终分析用户;而数据集市是面向分析应用的,面向最终用户。

元数据
关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。

操作数据存储ODS(Operational Data Store)
一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。
因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。数据仓库是一个面向主题、集成、相对稳定、反映历史变化的数据集合,用于支持用户的辅助决策分析。而ODS 则是一个面向主题的、集成的、可变的、反映当前细节的数据集合。它主要用于支持企业处理业务应用和存储面向主题的、即时性的集成数据,为企业决策者提供当前细节性的数据,通常作为数据仓库的过渡阶段

当今的数据处理大致可以分成两大类

On-Line Transaction Processing联机事务处理过程(OLTP)
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易
表示事务性非常高的系统,一般都是高可用的在线系统,以小的事务以及小的查询为主,评估其系统的时候,一般看其每秒执行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值