- 博客(13)
- 收藏
- 关注
原创 数据仓库元数据管理
元数据管理, 简单的做就是EXCEL结合版本管理等传统工具管理,专业点就用专门的元数据管理工具;数据字典-->数据知识库业务元数据,技术元数据,管理元数据参照:SAP元数据管理平台:按业务(角色)分类,按技术类型分类(特征,关键值,DSO,InfoCube),数据流程图 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据
2013-08-26 09:40:51 1200
原创 维表的设计方法
多维模型中的维表包含用来描述事实表中行记录的属性。维表的属性一些提供描述性信息,其他的属性可以规定事实表数据的汇总方法并帮助分析师来理解汇总的数据。维表还包含属性的层次结构来对数据进行分层汇总。维表一般较小,一些代码表经非正规化处理后重复保存在维表中来避免需要关联多个维表和代码表来提高信息查询的性能。根据IBM多维模型设计方法和生命周期,维表的设计要经过以下的步骤:1. 确定
2013-08-26 09:28:24 1441
原创 Datastage性能优化
State的拆分与合并:如两个JOIN的stage都为大数量(几百万)且主表是一样的则考虑合并。如一个stage中的两个表都为大表且关联很慢时考虑拆分为两个stage作Join。 Copy Stage在内存中操作的组件,建议1进多出用copy组件Tansformer Stage是内嵌的程序,一旦作业执行到此stage程序会暂停进程,外部调用so的程序,Trans
2013-08-23 14:20:38 980
原创 Datastage常用stage
Join: 数据集内连接,外连接(Left,Rigth)Lookup: 数据字典关联,左关联Transform : 数据计算,通过利用系统函数和表达式进行数据列计算转换,输入输出Mapping;数据分流,定义constraints数据分流、过滤。条件表达式:相当于自定义函数 Aggregator 汇总Copy 一个数据集复制为多个数据集Filter 一个数据集不同过
2013-08-23 11:27:48 1759
原创 数据仓库构建步骤
构建企业级数据仓库五步法:一、确定主题 即确定数据分析或前端展现的主题(例:某年某月某地区的啤酒销售情况)。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑.二、确定量度 KPI 确定主题后,需要考虑分析的技术指标(例:年销售额等等)。它们一般为数据值型数据,其中有些度量值不可以汇总;些可以汇总起来,以便为分析者提供有用的信息。量度是
2013-08-22 17:42:12 1135
原创 Datastage 分区partition
随机分区和Same分区和完全分区随机(Random)分区是DataStage的分区方法之一。随机分区是这样操作的:DataStage将输入数据随机地分配到所有节点上。与循环分区类似,随机方法所产生的分区,各个节点上处理的数据也都大致相等。但与循环分区相比,随机分区需要的系统资源开销要大,因为这种方法在分区时,要为每条记录都生成一个随机值。相对循环分区来讲,开销自然要大。Same分区
2013-08-20 15:16:30 633
原创 oracle 列转行 LISTAGG和WM_CONCAT .
WMSYS.WM_CONCAT: 依赖WMSYS 用户,不同oracle环境时可能用不了,返回类型为CLOB,可用substr截取长度后to_char转化为字符类型LISTAGG : 11g2才提供的函数,不支持distinct,拼接长度不能大于4000,函数返回为varchar2类型,最大长度为4000. with temp as( select 'China' nat
2013-08-20 14:18:32 1266
原创 数据库三范式
数据库设计的三范式: 范式:数据库设计时的一些规则。而这些规则是由一个姓范的人规定的,所以叫范式 三范式设计的规则: 三范式所追寻的原则是:不存在冗余数据(同样的数据我不存第二遍) 第一范式的要求:1.要有主键(设计任何表都要有主键) 2.列不可分第二范式的要求:当一张表里面有多个字段作为主键的时候,非主键的这些字段,不能依赖于部分主键 (只能依赖整个组
2013-08-20 11:50:55 399
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人