我的数据仓库之路!

转载 2007年10月09日 09:43:00
我的数据仓库之路!
 
数据仓库是什么?BI是什么?自己的数据仓库之路如何继续下去?BI到底有没有前途?虽然从开始到现在已经过去两年了,但是我的疑问还在继续也将继续下去.......
 
曾经在国内某民族通信企业(通过CMM5级认证)工作过一段时间,因厌倦了客户无休止的需求导致程序无休止的修改,也厌倦了某不懂编码X士项目经理无休止的加班要求(一个月只休息了一天),便走上了BI这条不归路。
 
最初的BI知识,是由在公司接受了2周培训的哥们给我培训的,两个人两眼一抹黑便开始广东XX局点BI的开局工作,大家对BI知识懵懵懂懂的,还好对 SQLServer2000和Oracle我还不陌生,毕竟也用了4、5年的时间做过数据库程序开发(不管怎么样写个SQL脚本还是没问题的)。XX局点的数据仓库现在看起来并不太复杂,ETL工具是使用微软SQLServer2000的DTS作了一层包装,然后调用了SQLServer2000写的一堆存储过程,还有公司内部开发的一个数据迁移和处理二进制话单的工具,配置起来颇有些麻烦(开发者颇有些功底,但以后也不会再使用了);业务数据库只有 Oracle,还有些二进制文件;报表工具是国内一家厂商提供的,说实话开发效率挺高的,但土了点,稳定性也差了点;OLAP就是Analysis Service了。那时候不懂架构,只知道比葫芦画瓢,按照原来的样子进行代码编写。有一件比较搞笑的事,用户要求出一类报表,我和同事还不会OLAP,我就灵机一动写了数十张报表,满足不同维度和层次的要求,虽然效率很低。培训了两周后,就让我到某某移动开局去了,当然什么都没搞起来,这让我很没面子,同时也很没绩效。
 
现在已经离开了那家曾经有过过劳死的企业(也许程序员就是IT民工吧,今天可以招上10000万,明天也可以离去3000人,反正民工多的是啊),该结的都结清了,谁也不再欠谁,我也失去了憎恨和爱戴的心情了。
 
这些都成为历史了,还是写写数据仓库的所谓架构吧。
 
数据仓库的设计主要是这样的:
 
业务系统—>ETL(DTS)—>原始数据库—>事实数据库—>OLAP—>前端报表。
 
业务系统就是用户的Oracle数据库了,里面有一些业务数据(当然自己的系统数据字典还是有的),此外还有一些二进制话单文件。
 
ETL过程就是一堆存储过程(维度的抽取、原始数据的抽取、事实数据的日结),然后通过DTS任务包调度起来。
 
原始数据库就应该是ODS数据库了,负责把数据原封不动的从业务系统抽取过来(部分也经过转化和清洗);出于对SQLServer2000性能的考虑,将每个业务数据表都分成历史表和当前表,当前表根据数据量的情况决定保留数据周期并定时转移到历史表中。
 
事实数据库保存着聚合信息的数据,完成KPI指标的计算,以及维度的抽取工作;同时在进行聚合的同时完成数据清洗工作。其实清洗很简单的,就是对NULL 的处理,连对主外键的判断都没有,也许是业务系统的数据质量还算不错吧,维度的处理仅作更新和插入处理,来保证外键数据的匹配。不过 SQLServer2000的性能实在不敢恭维,大于1000万的数据表处理的勉勉强强的,只好建了许多了分区表(实际上就是每个月一张数据表,用视图 Union起来,这也是微软推荐的方式)。
 
OLAP采用VBScript脚本对CUBE进行数据增量更新,说实话到现在也没太看明白每条语句的意思,对于每个分析主题建立分区(按月),主要是对MSOLAP的性能实在太不放心了。
 
报表工具采用国内一家专业厂商的报表工具,有一个应用服务器,定义知识库和报表权限之类的内容,报表的开发还是比较容易的,托托拽拽的就成了,二次开发的函数有点困难,还好用户要求不高,经过摸索作了一些自定义处理。就是应用服务器有点不稳定,在我的长期摸索下也逐渐掌握了规律,写了一些案例;哎现在再也用不到了。说实话其实OLAP功能还是蛮强大的(主要是能够满足国内企业的报表功能和变态查询要求),OLTP报表功能就不敢恭维了。
 
对于业务数据到原始数据的处理,完全采用增量抽取的原则(因为每个表都有了时间点);对于原始数据到事实数据的处理,则增加了一张log表,记录每次抽取的周期、跨度、与当前时间的差距和状态等等。对于OLAP的增量处理也是靠一张日志表决定处理的范围。唯一比较独特的可能是部分业务数据用户可能会更新,需要重新抽取、聚集和OLAP处理,这个时候在处理之前首先删除这段时间的数据,重新抽取、聚集和OLAP处理,当然是靠脚本来完成的。
 
总体来讲这就是我一年多做BI的经验和所谓架构吧,当然也有许多问题,例如SQLServer2000的稳定性、性能考验等等问题,DTS处理过程中来时发生任务中断,需要察看日志,作进一步处理,对于源抽取、事实日结、OLAP处理的中断处理方式均不一致。对于SQLServer2000的死锁以及内存泄漏等问题也有了一定经验。对报表工具的理解也是我后来对各种报表工具学习的基础。
 
经过一年多7、8个局点的锻炼,脸皮也变厚了,学习也麻木了,现成的版本,统一的流程,自己以为这就是BI的全部了,总之自己就是搞过数据仓库的人了,加上做过那么点数据库优化和数据迁移,感觉自己算是小牛一个了,呵呵。
 
不幸的是今年年初又折腾到老路上去了,拼了老命干了1个月的java和WebService,搞得心神俱疲,才发现自己不年轻了,也不是做编码的料。
 
于是乎辞职了,不管好歹也是从国内数一数二的大公司出来的,找个世界五百强还是没什么问题的,而且专业对口,属于那种天生就可以外出和客户交流的人,这可能是新公司对我的期望,要不然英语那么差劲,怎么可能轻易进来呢,待遇也还算不错,是原公司的1.5倍。其实我根本就不是那样的人,呵呵,不太喜欢和客户交流,不善于言辞,技术也是样样都知道样样不精通的那种。
 
既然进来了,又开始搞BI了,不过已经下班了,回去后再续写新公司的BI篇章,呵呵。
 
在新公司转眼已经呆了5个月,前三个月除了培训就是学习,向领导要了几次活干之后再也不要活干了,因为大家都无活可干,于是每天上上itpub学习一下 Oracle,或者交流一下数据仓库,积累一下人脉(刚学会的名词),英语本来是一个很重要的目标,可惜我总是不开窍,而且连半个假洋鬼子英语也说不好,现在要做国内项目了,英语成了我永远的痛。
 
数据仓库知识没学到多少,Oracle知识却感觉长进了不少,每天培训不少,可有质量的培训却不多,当然即使有质量的培训也轮不到我等刚入公司的去学习。外企就是外企,每天总是拿着工资不干活,天天喝着咖啡、橙汁,总感觉像是被恩赐似的,很不爽,还是得找点事来做,不过三个月的懈怠确确实实把我从一个勤勤恳恳兢兢业业的老黄牛变成了一个彻头彻尾的懒虫了,每天早9晚6准时的很,也许这才是生活,名片也打印了,上面没有手机,就是八个小时之外不用来找我的意思吧。
 
国外项目谈了将近一年了没谈成,我就失业了;另外一个国内外企的项目因为领导感觉我不善言辞,把我换掉了;只好做一个彻头彻尾的国内项目了,做一个小小的工程师也很不错,不用担责任想事情,反正我就是一个懒惰的人。一个月就换了3个工作,虽然什么都还没做。
 
言归正传,国内企业就是国内企业,外表很光鲜,做起项目来尾巴就露出来了,大概是一个应景之作吧,客户要求一个数据仓库项目1个半月就要完成,半个月的需求,一个月的设计开发和测试;更要命的是现在需求丝毫没有些许的概念,客户要求用国际化的行业经验来帮助制定相应的KPI,理论联系实际,怎么招,我也不知道怎么招,反正有售前人员请的国外顾问,能忽悠就忽悠吧。不过说归说,前期的工作还是要开展的。
 
所谓的数据仓库架构,我也是第一次听说,改改一些概念,干脆一起来分享一下吧,没准还能成为行业标准,呵呵!该架构主要分为四层结构体系:
> ODS层
主要负责采集业务系统并保存一定期限内的相关业务数据。当然也可以满足用户对明细数据的查询要求,姑且也可以算作明细数据仓库。
> 数据仓库层
将ODS层经过质量检查、清洗、转换后,形成符合质量要求的公共数据中心。实际上与ODS层差别不大,都是建立以ER为中心的数据关系,方便以后的数据的聚合。
> 明细数据集市层即前面所说的事实层
按主题及KPI指标对数据仓库层数据进行进一步转换,将指标与维度组成数据集市。这是OLAP的数据基础。
> 聚合数据集市层即OLAP
在明细数据集市层的基础上,提供基于联机分析处理(OLAP)引擎的多维分析能力,解决联机分析功能和决策支持要求。
> 数据展现层
按照用户报表要求,提供用户报表界面及预警分发机制。
 
其中前3层都是属于ETL层的,问题是层次出来了我的疑问也出来了,都是属于那种别人不操心我瞎操心的事。毕竟算是搞数据库出身的(搞过一些索引和简单的 SQL调优),最关心的还是性能问题。数据仓库是企业级的数据中心,每天上G的数据的企业不在少数,那么多的层次,使用工具能抽的完数据吗?说实话我实在不信任ETL工具,总感觉他没我写的SQL语句效率高;即使抽的完数据,那么多的层次转换能处理的完吗;即使处理完,如果万一一个环节出现问题,能回退或重新处理吗;处理完后那OLAP该怎么调度啊;数据质量(清洗转换)到底在哪个环节处理;数据质量到底包括哪些东西(除了主外键缺失和NULL值),兄弟比较愚笨,一直想不明白;不合质量要求的数据如何处理;入库的数据在业务库发生更改怎么办;业务数据没有时间戳怎么办;数据核对和校验工作如何进行;不管工具也好代码也好,到底有没有通用的处理流程(比如维度数据处理,原始业务数据抽取,事实表日结处理);还有就是到现在也没搞到合适的需求设计文档的模板 (如果哪位兄弟有可以帮忙提供一下)。这一系列问题我是横竖想不明白的,反正我的问题总是比别人多,学东西总比别人慢,还是人年龄大了真的退化了。
 
关于数据仓库的逐步学习,发现不懂得越来越多了,希望大家多提点提点,数据挖掘我是一窍不通,高等数学没学好,算法自然也学不会,只怪我高中文科出身,信息管理系的文凭拿的还是文学学士,简直没脸见人了;业务建模和需求分析也不是我擅长的,因此我只能关心纯技术的东西,可是ETL工具把人写代码的权力也剥夺了,因此我只能关心一些大的方面了,这难道就是所谓的架构吗?不知道,哎,学吧!
 
完了,希望不要占用大家的时间,还是带一句E文吧,TKS!
 

如何用Hive“傻瓜式”搭建数据仓库—Hive安装部署

一、前言: 数据仓库主要用来用来存储公司或者企业的历史数据,即日积月累的数据。 1、数据库与数据仓库区别: 关系型数据库是基于事务性的,数据仓库是根据主题构建的。 2、使用示例: l 用户使...
  • gebitan505
  • gebitan505
  • 2017年04月28日 18:23
  • 980

[转载] 我的数据仓库之路

数据仓库是什么?BI是什么?自己的数据仓库之路如何继续下去?BI到底有没有前途?虽然从开始到现在已经过去两年了,但是我的疑问还在继续也将继续下去....... 曾经在国内某民族通信企业(通过CM...
  • lively1982
  • lively1982
  • 2013年12月12日 14:44
  • 695

数据仓库学习(1)

数据仓库本来从大学的时候我就没有接触过,数据库,数据结构这两门课程有基础,对于数据仓库不是太了解,能够开始接触到数据仓库,最直接的原因就是找工作,我面试京东金融数据仓库的岗位,结果全部的问题全都是关于...
  • wjcquking
  • wjcquking
  • 2015年03月26日 10:51
  • 1616

简要总结 数据仓库VS数据库

本文简要总结以下两个问题,旨在快速理解“数据仓库” 1、什么是“数据仓库”? 2、“数据仓库”与“数据库”的区别? 下面做详细阐述: 1、什么是“数据仓库”? “一个数据仓库通常是一个面...
  • wl101yjx
  • wl101yjx
  • 2014年06月15日 18:51
  • 1843

认识数据仓库建设意义

随着近几年互联网的蓬勃发展,网购用户成级数级增长。仅去年双十一当天销售额就突破了900多亿元。各家网购平台都开始收集交易数据,分析各地区各行业客户购物习惯,同时,利用交易数据和客户行为推出新产品或新功...
  • JAVA_QinWXiao
  • JAVA_QinWXiao
  • 2016年02月28日 13:29
  • 1717

数据仓库工作总结(觉得有点意思)

1.   概述 本文作为我这些年实施数据仓库的总结,如有错误,请各位同仁指正。 文档条理不是很清楚,而且也有很多口水话,我不想搞成一个真正的官方文档,所以很随意,符合我的性格。很多问题我只...
  • jiangshouzhuang
  • jiangshouzhuang
  • 2015年06月21日 16:48
  • 1667

[转]开源数据仓库解决方案GreenPlum

Greenplum DB 号称是世界上第一个开源的大规模并行数据仓库,最初是基于 PostgreSQL,现在已经添加了大量数据库方面的创新。Greenplum 提供 PD 级别数据量的强大和快速分析能...
  • heiyeshuwu
  • heiyeshuwu
  • 2016年05月03日 18:51
  • 5124

数据仓库成功的主要指标

数据仓库项目开始之前,为慎重起见,先花费一点时间评估一下继续行进所需要的机构准备情况。 根据从开发实践中积累起来的经验,确定了五个用于区别能够平稳推进的项目与总是出问题的项目的因素。 这些因素是衡...
  • liguoming05
  • liguoming05
  • 2013年09月09日 09:36
  • 1183

谈谈数据仓库架构的发展和分类

最近在网上看到了  Jerome 20061210 最近大家对数据仓库架构的讨论又多了起来,我在这里对一些架构进行一下简单的整理。目的是给大家树立一个靶子,大家可以在这篇文章后...
  • yangxin114
  • yangxin114
  • 2014年06月20日 10:06
  • 2164

腾讯数据仓库 -- 平台综述

腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时候,如何...
  • nxcjh321
  • nxcjh321
  • 2016年10月10日 09:49
  • 377
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:我的数据仓库之路!
举报原因:
原因补充:

(最多只允许输入30个字)