![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库与商业智能-DW and BI
PowerData
DW BI expert with Bank Credit RiskBasel II experience.
展开
-
DB29 for Linux,UNIX,and WINDOWS - section 1(DB2 product family)
DB29 for Linux,UNIX,and WINDOWS -- DBA Guide,Reference, and Exam Prep Sixth Edition.-- George Baklarz/Paul C.Zikopoulos 1. DB2 Everyplace for Mobile. 2. IBM Cloudscape based on J原创 2010-03-08 00:15:00 · 382 阅读 · 0 评论 -
Qlikview+nPrinting
转载:http://q.weibo.com/411790/article/ta5E0b6 向大家隆重介绍Qlikview+nPrinting的完美结合! 解决了Qlikview 11里面得交4万美刀才能实现的以PDF的格式自动发报告到指定邮箱(Qlikview在这点上太不厚道了有木有,这么简单的功能收费这么高)。更重要的是可以实现Qlikview和Excel的互连,从而实现在Excel里面转载 2013-04-14 17:08:33 · 2808 阅读 · 2 评论 -
DB29 for Linux,UNIX,and WINDOWS - section 5(DB2 Object)
Data type:1.Numeric: integer/decimal/floating2. String:char/varchar/CLOB3.Datetime:timestamp. Decimal (p,s)MIN_DEC_DIV_3 is set as no. then 31-p+s-s'被除数的精度(precision)为p,小数位(scale)为s;除数的精原创 2010-03-09 23:18:00 · 380 阅读 · 0 评论 -
DB29 for Linux,UNIX,and WINDOWS - section 13(DB2 performance)
DB2 Agent:thread in Windows, Process in UnixIndexbulid index on a)join condition; b)where condition; c)group by; d)order by; e)select statement. then reorg and runstats.Index advisor原创 2010-03-25 23:14:00 · 347 阅读 · 0 评论 -
DB2数据库性能调整和优化 1.OS
DB2数据库性能调整和优化 -- 牛新庄 Performance is volumn and response time.a.physical b.I/O c. config d. Index e. lock/log f.SQL RAID-0 is best performance and best data protect, but need more disk(50%),for原创 2010-04-16 00:16:00 · 456 阅读 · 0 评论 -
星型建模注意点
1. 系统设计以业务为出发点。2. 源数据的评估很重要。3. 一致性维度4. 不要根据报表来设计系统5. Surragate Key的使用6. 注意跟踪维度的变化。7. 数据要保持在最低粒度(BL层)8.DIM表的描述性属性应详细。9. 不要把描述性属性放在Fact表。原创 2011-07-12 15:57:54 · 385 阅读 · 0 评论 -
CDC
1.字段:创建日期,修改日期,有效性。insert: 创建日期=当前=修改日期 and 有效update:创建日期=旧,修改日期=当前 and 有效delete: 创建日期=旧=修改日期 and 无效2.触发器3.日志(Steam/CDC)4.全文比对(MD5),拉链表5.全文清除,插入原创 2011-07-12 16:22:42 · 335 阅读 · 0 评论 -
Oracle与DB2的那些事儿
http://wenku.baidu.com/view/696c88d176eeaeaad1f33096.htmlhttp://www.itpub.net/thread-1428290-1-1.html Oracle and DB2的高可用性和容灾性。Hardware/OS: HA,HACMPInstance:RAC,PurescaleData: RMAN,Backup Uti原创 2011-07-14 19:04:49 · 673 阅读 · 0 评论 -
Oracle 高级SQL
简单case和searched case之间的区别:Case exp when then ; Case when then1. 简单case只能是when后面的表达式完全匹配case后的表达式,相当于 =,所以也不能匹配null。2. searched case可以作为比较条件,那么可以使用like,!=,between ..and,层次查询1. Conne原创 2011-07-15 16:29:07 · 654 阅读 · 0 评论 -
Oracle concept
1.数据是在block里存储的,一个block可以有很多行。空块组成freelist. Pctfree=10,就是说一个块的使用率达到90%,unlink from freelist;Pctused=40%,就是说一个块的使用率低于40%时,relinik to free list.2.redo-保存的是commited数据,当数据库出现故障时,可以recovery. undo-保存原创 2011-07-14 20:08:18 · 363 阅读 · 0 评论 -
Oracle 优化容易忽略的地方
1. Exist 先执行主查询,in 先执行子查询,所以如果主查询有约束条件,应用Exist。2. 非等值连接,只能用排序合并连接,等值连接就可以用Hash Join(快)。3. Null处理,Coalesce, NVL4. SQL是集合处理。5. Mview, Force(fast(log)->complete), on demand, Query rewrite.6. 记录原创 2011-07-12 15:22:05 · 284 阅读 · 0 评论 -
Oracle 优化流程
1.确定各方职责,时间点,责任人。接口人最好是甲方,而不是开发商。2.性能分析报告(基线)3.优化方案(策略,路径,评估指标)4.方案评审5.实施计划6.实施过程(保存系统表,做好备份-rename table, insert /*+append*/ select )7.验收总结。1) 确定性能基线2) 定位问题SQL3)原创 2011-07-12 15:08:44 · 242 阅读 · 0 评论 -
Oracle 优化策略
1. 普通表转分区表(大表-2G,多于1000万条记录)2. 索引(减少非索引扫描)建立索引在约束条件列,选择性高列,被驱动表(内表)连接列(驱动表的连接列不一定)结果集在总行数的2%-4%,应建索引(编号,日期,外键)函数索引- QUERY_REWRITE_INTEGRITY = TRUSTED,QUERY_REWRITE_ENABLED = TRUE,bit原创 2011-07-12 14:53:32 · 280 阅读 · 0 评论 -
Data Vault
转载: http://datawarehou.se/knowledge/data-vault/#comment-146 Data Vault前言:Data Vault这个词对我来说非常陌生,一次和Vincent的邮件交流中他提到这个概念。查了下资料,总结如下。Data Vault是一种新的针对企业级数据仓库的数据建模方法,该概念主要面向数据架构师、数据建模人员和数据库管理员。转载 2013-04-14 17:03:25 · 8003 阅读 · 1 评论 -
Exadata V2 vs pureScale
转载http://geniusmatt.blogbus.com/logs/75269846.html 前言 最近计划做pureScale高可用性及扩展性测试,收集了一些这方面的资料,09年年末也有过一次和Oracle关于Exadata V2产品的交流。严格意义上,pureScale和Exadata V2没有可比性。pureScale不是Exadata V2那样的软硬件集转载 2011-07-21 23:33:16 · 824 阅读 · 0 评论 -
HANA vs PureData vs Exadata
转载:http://storage.ctocio.com.cn/144/12445144.shtmlhttp://www.dbform.com/html/2012/2051.html IBM Puredata Systems 在日前的新加坡圣淘沙IBM InterConnect 2012上,IBM宣布推出名为PureData的针对大数据处理业务的集成系统PureData,三款转载 2013-04-16 11:44:52 · 1717 阅读 · 0 评论 -
数据仓库的元数据管理
影响分析能力,血统分析可快速追溯数据来源和加工过程;影响分析可掌握元数据之间的相互影响;活力分析快速掌握数据实体之间的关系程度。原创 2013-11-10 12:53:03 · 7866 阅读 · 0 评论 -
2011年企业软件行业回顾和发展
转载: http://blog.sina.com.cn/s/blog_67a91b030100yaer.html 2011年已经过去,我们的分析师将对这一年发生的企业软件行业的大事件、大势做一个总结。 Jorge Garcia,BI研究分析师2011年有关商业智能(BI)的三大名词:1. 大数据(big data):每家厂商都进入了大数据领域----Oracle和微软及它们转载 2013-04-14 17:07:59 · 771 阅读 · 0 评论 -
内联视图、标量子查询、WITH子查询分解的示例
内联视图、标量子查询、WITH子查询分解的示例-- 内联视图 (子查询在from后面,作为一个表)select p.pname,c1_sum1,c2_sum2from p,(select id,sum(q1) c1_sum1 from s1 group by id) s1,(select id,sum(q2) c2_sum2 from s2 group by id) s2w原创 2011-07-18 09:17:34 · 1503 阅读 · 0 评论 -
DB29 for Linux,UNIX,and WINDOWS - section 4(DB2 Security)
1. Authentication.a.Serverb.Clientc.Kerberosd.Data-encrypte.Gssplug-inSQL.:1)get database manager configuration2)update DBM cfg using authentication server 2.Privilegea.SYSADM原创 2010-03-08 22:46:00 · 419 阅读 · 0 评论 -
DB29 for Linux,UNIX,and WINDOWS - section 6(DB2 SQL)
OLD/New/Final Table:SELECT salary FROM OLD TABLE (UPDATE employee SET salary = salary* 1.07 WHERE empno= '000220'); SQL error msgSignal Sqlstate '70001'set message_text='Record not fou原创 2010-03-10 23:13:00 · 509 阅读 · 0 评论 -
DB29 for Linux,UNIX,and WINDOWS - section 9(DB2 Concurrent)
IsolateUR: the lowest level,Uncommitted Read(脏读-未提交的数据都照读)。CS: the default leve, Cursor Stability(committed read and lock the row which the select cursor at)RS:Read stability(committed read and原创 2010-03-11 23:51:00 · 547 阅读 · 0 评论 -
DB29 for Linux,UNIX,and WINDOWS - section 11(DB2 storage)
DPF:Distribute by hash TP:parttion by range MDC:organize by dimesions Set integrity:check reference/constraints,update MQT, update index. Reorg:delete unuse space,improve原创 2010-03-12 23:54:00 · 426 阅读 · 0 评论 -
DB29 for Linux,UNIX,and WINDOWS - section 12(DB2 data maintenance)
Export/Import:export to employee.ixf of ixf SELECT * FROM ADMINISTRATOR.EMPLOYEE fetch first 10 rows only;import from employee.ixf of ixf commitcount 10 create into ADMINISTRATOR.EMPLOYEE; ix原创 2010-03-17 23:17:00 · 395 阅读 · 0 评论 -
深入解析DB2 - 高级管理、内部体系结构与诊断案例
深入解析DB2 - 高级管理、内部体系结构与诊断案例 -- 牛新庄 db2wdog like the linux init process DB>DB Partition >Table space>Container>Extent>page 高水位标记(HWM)是指该表空间曾经使用到的最大数据页数. RID scan. for or/in predicate原创 2010-03-30 23:40:00 · 569 阅读 · 0 评论 -
DB2数据库性能调整和优化 2.Design
1.物理设计。a.容器:条带化,裸设备,支持并发I/Ob.存储:日志用RAID5,数据用RAID10c.配置:extentsize=条带深度N倍,prefetchsize=条带深度*宽度的N倍 2.逻辑设计。a.缓冲池:不同页大小的表空间,至少有一个缓冲池。将经常使用的小表或索引,放在单独的表空间,拥有自己的缓冲池,保证其不被移出BP,提高性能。基于块的缓冲池可使用块I原创 2010-06-16 17:08:00 · 382 阅读 · 0 评论 -
Oracle 优化原理
1.Query transformer:1)View merging - represent the view to the containing query block(table).2)Predicate pushing - push the relevant predicates from the containing query block into the view.3)Su原创 2011-07-12 15:00:16 · 294 阅读 · 0 评论 -
DW/BI 架构层次
1. Source, 3NF/File, 源数据2. Stg, 3NF,暂存数据(同源同构,不对外提供服务)3. ODS, 3NF,操作数据(简单处理,提供基于业务数据的应用)4. BL, Star, 明细数据(面向主题域,数据加工,产生衍生指标)5. DM, Start, 汇总数据(特定领域的应用)6. OLAP, Cube, 多维数据7. Report。最难原创 2011-07-12 15:25:41 · 1812 阅读 · 0 评论 -
Datastage 注意点
1. 逻辑复杂的Stage, write Annotation.2. Test data: Row/Column Generator3.Debug Data: copy->filter->peek4. Modify stage for type convesion.5. Combine Stage: header-+detail+trailer6. or express can原创 2011-07-12 15:40:40 · 386 阅读 · 0 评论 -
DB2 vs Oracle 系统视图
DB2:SysIBM 系统编目(catalog)syscat:静态的对象信息。sysstat:动态性能信息。Oracle:Sys 数据字典(data dict),存放在SYSTEM表空间sys: (dba_/user_/all_)静态的对象信息sys:(V$)动态性能信息原创 2011-07-12 15:50:28 · 333 阅读 · 0 评论 -
Oracle 分区
1.Range/list,方便历史数据的迁移,如交易表2.Hash,用于主数据表,如客户表3.composite,Range-List,如(Year,Month)的分区方法4.前缀索引:分区字段是索引字段的一部分(前缀)5.本地索引:分区字段=索引字段6.全局索引:分区字段7.delete recrod可以自动维护索引,但drop table时,普通索引和全局索引,索引原创 2011-07-13 21:45:59 · 401 阅读 · 0 评论 -
oracle ETL
1.大批量,大吞吐量2.并行:merge3.统计函数:Rank,rollup, cube4.move data:TTS tablespace,merge/exchage partition,external table5.不用cursor;用view, global temp table6.MQT,可以有效加快统计类报表的速度 HW建议:1.使用游标来处理逻辑,用游原创 2011-07-14 22:21:05 · 736 阅读 · 0 评论 -
DW-BI Tool
我用过的工具:DB2/Oracle/Teradata + Datastage/Abinitio+ Cognos/Qlikvew/BIEE/BO + SPSS/SAS收购整合的工具:SAP:BUSINESS OBJECTS(Crystal Reports),SybaseOracle:Hyperion(brio),ESSbaseIBM:Datastage,Cognos, N原创 2011-07-26 11:34:15 · 540 阅读 · 0 评论 -
Share-nothing and Share-everything.
Sharenothing: Teradata, DB2 DPF, MySQL( need to re-distribute data)Shareeverything: Oracle, DB2 purescale,, MySQL(争用磁盘,但一致性好,集群性好) Oracle:一台服务器可以安装多个实例,一个磁盘阵列可以有多个库 --这样两套系统可以跑在同一个机器上。一个实例不可原创 2011-07-12 16:26:37 · 1269 阅读 · 0 评论 -
PL/SQL
1.Plsql 引擎可以接受应用程序的程序,然后将sql 部分和plsql 部分分离出来,分别交给sql引擎和plsql引擎执行,提高执行效率。2.plsql支持dml,select语句,不直接支持ddl,用动态语句,execute immediate或DBMS_SQL。3.forall与批处理bulkcollection联合用,bulk collection可以减少plsql的引擎和sq原创 2011-07-26 16:35:06 · 473 阅读 · 0 评论 -
数据挖掘与数据建模的9大定律
数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意。20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的一种标准化过程,被越来越多的数据挖转载 2013-11-24 19:53:37 · 1196 阅读 · 0 评论