数据仓库
文章平均质量分 73
喝酸奶舔盖儿的土鳖
事情都是有双面性的。
展开
-
ETL架构师面试题(四)
数据质量一.数据质量检查的四大类是什么?为每类提供一种实现技术。 数据质量检查是ETL工作中非常重要的一步,主要关注以下四个方面。1.正确性检查(Corret)检查数据值及其描述是否真实的反映了客观事务。例如地址的描述是否完全。2.明确性检查(Unambiguous)检查数据值及其描述是否只有一个意思或者只有一个解释。例如地名相同的两个县需要加区分方法。原创 2015-04-29 15:48:22 · 980 阅读 · 0 评论 -
ETL架构师面试题(六)
元数据一.举例说明各种ETL过程中的元数据。 元数据是ETL项目组面对的一个非常重要的主题,对于整个数据仓库项目也是非常重要的一部分。对于元数据的分类和使用没有很确定的定义。 通常来说,我们可以把元数据分为三类,分别为业务元数据(Business Metadata),技术元数据(Technical Metadata)和过程处理元数据(Process Ex原创 2015-04-29 15:59:28 · 897 阅读 · 0 评论 -
ETL架构师面试题(五)
建立映射一.什么是代理键?简述代理键替换管道如何工作。 在维度表的迁移过程中,有一种处理方式是使用无意义的整型值分配给维度记录并作为维度记录的主键,这些作为主键的整型值称为代理键(Surrogate Key)。使用代理键有很多好处,如隔离数据仓库与操作环境,历史记录的保存,查询速度快等。 同时,在事实表的迁移过程中,为了保证参照完整性也需要进行代理键的替原创 2015-04-29 15:53:53 · 978 阅读 · 0 评论 -
ETL架构师面试题(七)
优化/操作一.简述数据仓库中的表的基本类型,以及为了保证引用完整性该以什么样的顺序对它们进行加载。 数据仓库中的表的基本类型有维度表、事实表、子维度表、桥接表等几类。其中子维度表即雪花模型由支架维度技术处理,桥接表用来处理多值维度或层级结构。 数据仓库中需要加载的各类表之间有相互依赖的关系,所以加载时需要以一定的顺序进行加载。下面是一些加载的基本原则:原创 2015-04-29 16:02:38 · 3018 阅读 · 1 评论 -
ETL架构师面试题(八)
实时ETL一.简述在架构实时ETL时的可以选择的架构部件。 在建立数据仓库时,ETL通常都采用批处理的方式,一般来说是每天的夜间进行跑批。 随着数据仓库技术的逐步成熟,企业对数据仓库的时间延迟有了更高的要求,也就出现了目前常说的实时ETL(Real-Time ETL)。实时ETL是数据仓库领域里比较新的一部分内容。 在构建实时ETL架构的原创 2015-04-29 16:11:35 · 1303 阅读 · 0 评论 -
ETL初步认识
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我原创 2015-04-27 14:44:19 · 772 阅读 · 0 评论 -
ETL架构师面试题(一)
本部分的题目来自Kimball的ETL Toolkit著作。仅供参考分析一、什么是逻辑数据映射?它对ETL项目组的作用是什么? 逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的格式保存如下的信息:目标表名:目标列名:目标表类型:注原创 2015-04-27 17:22:50 · 1592 阅读 · 0 评论 -
ETL架构师面试题(二)
架构四.在ETL过程中四个基本的过程分别是什么? Kimball数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取(extract)、清洗(clean)、一致性处理(comform)和交付(delivery),简称为ECCD。1.抽取阶段的主要任务是:读取源系统的数据模型。连接并访问源系统的数据。变化数据捕获。原创 2015-04-27 17:46:29 · 1462 阅读 · 0 评论 -
ETL架构师面试题(三)
抽取一.简述异构数据源中的数据抽取技术。 在数据仓库项目中,需要抽取的数据经常来自不同的数据源,它们的逻辑结构和物理结构都可能不同,即称之为异构数据源。 在对异构数据源进行整合抽取时,我们需要做的事情依次是标识出所有的源系统,对源系统进行概况分析,定义数据匹配逻辑,建立筛选规则,生成一致性维度。 对于源数据的操作系统平台和数据平台各不相同的情况原创 2015-04-27 17:58:50 · 1155 阅读 · 0 评论 -
数据仓库概念(四) - OLAP
一、定义 联机分析处理(OLAP)系统是一套以多维度方式分析数据,而能弹性地提供积存(英语:Roll-up)、下钻(英语:Drill-down)、和透视分析(英语:pivot)等操作,呈现集成性决策信息的方法,多用于决策支持系统、商务智能或数据仓库。。它是数据仓库系统最主要的应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、原创 2015-04-08 14:43:24 · 1188 阅读 · 0 评论 -
数据仓库介绍(五) - 多维数据模型
数据仓库的多维数据模型 可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些。但不得不承认多维数据模型是数据仓库的一大特点,也是数据仓库应用和实现的一个重要的方面,通过在数据的组织和存储上的优化,使其更适用于分析型的数据查询和获取。多维数据模型的定义和作用转载 2015-04-08 17:20:23 · 985 阅读 · 0 评论 -
数据仓库介绍(四) - 逻辑数据模型
一、定义 逻辑数据模型LDM是数据仓库的数据建设阶段为解决业务需求而定义的数据仓库模型解决方案,它是指导数据仓库进行数据存放、数据组织、以及如何支持应用的蓝图(blue print),定义需要追踪和管理的各种重要实体、属性、关系。 LDM是Hight Level并且是粗线条的,是对仓库模型在战略上和总体架构上的指导和原则。它利用图形方式,通过数据和关系反映业务转载 2015-04-08 16:50:48 · 4307 阅读 · 0 评论 -
数据仓库概念(一) - 基本概念
一、数据仓库的定义较简易的解释方式:数据仓库是一种资讯系统的资料储存理论,此理论强调利用某些特殊资料储存方式,让所包含的资料,特别有利于分析处理,以产生有价值的资讯并依此作决策。利用数据仓库方式所存放的资料,具有一但存入,便不随时间而更动的特性,同时存入的资料必定包含时间属性,通常一个数据仓库皆会含有大量的历史性资料,并利用特定分析方式,自其中发掘出特定资讯。较学术的解释方原创 2015-03-31 11:02:20 · 1100 阅读 · 0 评论 -
数据仓库概念(二) - ODS
ODS(英语:Operational Data Store)是一种数据架构或数据库设计的概念,出现原因是来自于当需要集成来自多个系统的数据,结果又要给一或多个系统使用时。一、概念ODS (Operational Data Store)操作型数据存储,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“集成的、当前或接近当前的、不断变化的”数据,一般不保留数据的变动轨迹,是数原创 2015-04-02 14:33:01 · 2441 阅读 · 0 评论 -
数据仓库概念(三) - 数据集市
1. 什么是数据集市?数据集市与数据仓库的区别? 数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time Variant) 的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面转载 2015-04-03 07:15:07 · 2861 阅读 · 0 评论 -
数据仓库介绍(六) - 元数据介绍
一、元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于原创 2015-04-13 16:59:49 · 1717 阅读 · 0 评论 -
数据仓库介绍(七) - 星型模型与雪花模型
多维数据建模以直观的方式组织数据,并支持高性能的数据访问。每一个多维数据模型由多个多维数据模式表示,每一个多维数据模式都是由一个事实表和一组维表组成的。多维模型最常见的是星形模式。在星形模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。 在星型的基础上,发展出雪花模式,下面就二者的特点做比较。一、星型模型 位于星形中心的实体是指标实体,是用原创 2015-04-13 17:26:37 · 4263 阅读 · 0 评论 -
数据仓库介绍(二) - 数据类型
数据仓库的源数据类型 数据仓库中集成了企业几乎所有的可以获取到的数据以用于数据分析和决策支持,当然也包括了我在网站分析的数据来源一文中所提到的所有数据。这些进入到数据仓库中的数据无外乎三种类型:结构化数据、半结构化数据和非结构化数据,它们经过转化后以某种形式统一地储存在数据仓库中,即通常说的ETL(Extract, Transform, Load,抽取、转换、装载)的过转载 2015-04-08 16:18:48 · 1047 阅读 · 0 评论 -
数据仓库介绍(三) - 基本架构
数据仓库的基本架构 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用转载 2015-04-08 16:23:47 · 799 阅读 · 0 评论 -
数据仓库介绍(一) - 数据来源
Avinash Kaushik在他的《Web Analytics》一书中将数据的来源分为4部分:点击流数据(Clickstream)、运营数据(Outcomes)、调研数据(Research/Qualitative)和竞争对手数据(Competitive Data)。点击流数据主要指的是用户浏览网站时产生的数据;Outcomes我更习惯叫做运营数据,主要指用户在网站中应用服转载 2015-04-08 16:15:39 · 4583 阅读 · 0 评论 -
数据仓库概念(五) - OLTP
一、定义 联机交易处理(OLTP, Online transaction processing)是指通过信息系统、电脑网络及数据库,以在线交易的方式处理一般实时性的作业数据,和更早期传统数据库系统大量批量的作业方式并不相同。OLTP通常被运用于自动化的数据处理工作,如订单输入、金融业务…等反复性的日常性交易活动。也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算原创 2015-04-08 15:39:56 · 1082 阅读 · 0 评论 -
大数据中数据量打底有多大?
先看下计量单位之间的换算: 1KB (Kilobyte 千字节)=1024B, 1MB (Megabyte 兆字节 简称“兆”)=1024KB, 1GB (Gigabyte 吉字节 又称“千兆”)=1024MB, 1TB (Trillionbyte 万亿字节 太字节)=1024GB, 1PB (Pe原创 2015-05-05 11:31:54 · 2775 阅读 · 0 评论