数据仓库元数据管理 元数据管理, 简单的做就是EXCEL结合版本管理等传统工具管理,专业点就用专门的元数据管理工具;数据字典-->数据知识库业务元数据,技术元数据,管理元数据参照:SAP元数据管理平台:按业务(角色)分类,按技术类型分类(特征,关键值,DSO,InfoCube),数据流程图 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据
维表的设计方法 多维模型中的维表包含用来描述事实表中行记录的属性。维表的属性一些提供描述性信息,其他的属性可以规定事实表数据的汇总方法并帮助分析师来理解汇总的数据。维表还包含属性的层次结构来对数据进行分层汇总。维表一般较小,一些代码表经非正规化处理后重复保存在维表中来避免需要关联多个维表和代码表来提高信息查询的性能。根据IBM多维模型设计方法和生命周期,维表的设计要经过以下的步骤:1. 确定
Datastage性能优化 State的拆分与合并:如两个JOIN的stage都为大数量(几百万)且主表是一样的则考虑合并。如一个stage中的两个表都为大表且关联很慢时考虑拆分为两个stage作Join。 Copy Stage在内存中操作的组件,建议1进多出用copy组件Tansformer Stage是内嵌的程序,一旦作业执行到此stage程序会暂停进程,外部调用so的程序,Trans
Datastage常用stage Join: 数据集内连接,外连接(Left,Rigth)Lookup: 数据字典关联,左关联Transform : 数据计算,通过利用系统函数和表达式进行数据列计算转换,输入输出Mapping;数据分流,定义constraints数据分流、过滤。条件表达式:相当于自定义函数 Aggregator 汇总Copy 一个数据集复制为多个数据集Filter 一个数据集不同过
数据仓库构建步骤 构建企业级数据仓库五步法:一、确定主题 即确定数据分析或前端展现的主题(例:某年某月某地区的啤酒销售情况)。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑.二、确定量度 KPI 确定主题后,需要考虑分析的技术指标(例:年销售额等等)。它们一般为数据值型数据,其中有些度量值不可以汇总;些可以汇总起来,以便为分析者提供有用的信息。量度是
Datastage 分区partition 随机分区和Same分区和完全分区随机(Random)分区是DataStage的分区方法之一。随机分区是这样操作的:DataStage将输入数据随机地分配到所有节点上。与循环分区类似,随机方法所产生的分区,各个节点上处理的数据也都大致相等。但与循环分区相比,随机分区需要的系统资源开销要大,因为这种方法在分区时,要为每条记录都生成一个随机值。相对循环分区来讲,开销自然要大。Same分区
oracle 列转行 LISTAGG和WM_CONCAT . WMSYS.WM_CONCAT: 依赖WMSYS 用户,不同oracle环境时可能用不了,返回类型为CLOB,可用substr截取长度后to_char转化为字符类型LISTAGG : 11g2才提供的函数,不支持distinct,拼接长度不能大于4000,函数返回为varchar2类型,最大长度为4000. with temp as( select 'China' nat
数据库三范式 数据库设计的三范式: 范式:数据库设计时的一些规则。而这些规则是由一个姓范的人规定的,所以叫范式 三范式设计的规则: 三范式所追寻的原则是:不存在冗余数据(同样的数据我不存第二遍) 第一范式的要求:1.要有主键(设计任何表都要有主键) 2.列不可分第二范式的要求:当一张表里面有多个字段作为主键的时候,非主键的这些字段,不能依赖于部分主键 (只能依赖整个组
2013-2013 逻辑架构:ODS-->DM-->EDW工具技术选型:DB,ETL,BI,OLAP建模步骤/生命周期:建模方法:3NF 第三范式,Snowflake雪花模式(SAP BW采用),Star星型模式(推荐),molap cube 多维信息立方体...
维度表设计原则 · 每个维表必须有而且只有一个最明细层作为该维表的颗粒度。· 任何一个维表若被多个事实表使用,该维表应作为公共维表来设计。· 除非出于性能考虑,否则每一个非键属性应只出现在一张维表里。· 需要记录属性变化的维的主键应该是使用代理键,并使用具有业务含义,业务用户可识别的代码作为自然键。业务系统自带的代理键不能做为维表的主键...
维度表设计原则 · 每个维表必须有而且只有一个最明细层作为该维表的颗粒度。· 任何一个维表若被多个事实表使用,该维表应作为公共维表来设计。· 除非出于性能考虑,否则每一个非键属性应只出现在一张维表里。· 需要记录属性变化的维的主键应该是使用代理键,并使用具有业务含义,业务用户可识别的代码作为自然键。业务系统自带的代理键不能做为维表的主键...
维表的设计方法 多维模型中的维表包含用来描述事实表中行记录的属性。维表的属性一些提供描述性信息,其他的属性可以规定事实表数据的汇总方法并帮助分析师来理解汇总的数据。维表还包含属性的层次结构来对数据进行分层汇总。维表一般较小,一些代码表经非正规化处理后重复保存在维表中来避免需要关联多个维表和代码表来提高信息查询的性能。根据IBM多维模型设计方法和生命周期,维表的设计要经过以下的步骤:1. 确定...
to_study TO Study: ETL/报表工具:datastage、infomatic,bo,biee ,调度工具:Moia DW建模设计:建模(事实表/维度表),erwin建模工具: 好的模型评价标准 ??,IBM多维模型设计方法和生命周期,模型验证方法 原数据管理 oracle: 分区/表空间,优化业务:供应链,银行信用卡/CRM...
20130228 DW-R的模型框架和建模思路R&A是IFS核心项目之一,其目标是采用先进的数据仓库和商务智能理念、技术和方法,建立华为企业级的财经数据仓库,支持集团公司的财务报告和经营分析需求。R&A的主要业务目标为:· 完整地获取资产、负债、权益和损益财经数据,支持集团内外部的财经报告与与分析需求· 拉通财务指标和业务交易数据,扩展财经数据分析...
myself http://bbs.csdn.net/topics/390349305 ETL工具大全 https://imailcn.huawei.com/owa 华为外网邮箱地址http://w3.huawei.com 华为内部门户网站 班车:上班车:125,125-1 东方半岛7:30下班车:225 6:30 9:30休息日:117 07:00...