胖子哥的大数据之路(三)- 数据仓库的需求分析该怎么做

一、引言

  基于大数据技术构建数据仓库平台,源于大数据技术本身的不成熟和普及度问题,以及辅助工具的缺失,注定了其实施过程与传统数据仓库的差异性,和更大的实施难度。本文针对大数据技术应用与数据仓库类项目需求分析阶段,需要完成的主要工作基于用户需求分析说明书的文档结构进行目录式展现。如需了解更深层的细节,可以做专项技术交流和咨询服务。

一、项目范围的界定

  没有明确项目边界的项目是一个不可控的项目,如果项目规划阶段就没有界定明确的项目范围,项目实施过程过程中必将陷入万劫不复的境地,慎重慎重。基于大数据基于的数据仓库项目,面临技术和人员等方面的问题,主要包括下面几个方面:

(1)大数据基础平台的成熟度尚不完善:主要是指基于Hive+Hadoop技术的缺陷,需要技术在逐步的完善中;

(2)大数据辅助工具化的缺失:主要针对数据定义,数据处理以及数据可视化管理工具的欠缺;

(3)大数据开发和管理人员技术能力的不成熟:熟悉大数据相关平台管理和开发技术的人员的不足和技术层次参差不齐;

  正是基于以上原因的考虑,导致大数据环境下的数据仓库的实施相对于成熟的传统关系型数据库模式,将会面临更大的压力和更多的需要考虑的问题。项目边界的界定主要需要考虑一下问题:

(1)业务边界:都有哪些业务系统的数据需要接入到数据仓库平台。

(2)数据边界:都有哪些业务数据需要接入数据仓库平台,具体的包括哪些表,表结构如何,表间关系如何(区别于传统模式)。

(3)功能边界:提供哪些功能,不提供哪些功能,必须明确界定,该部分详见需求分析;

二、关键业务流程分析

 业务流程主要考虑包括系统间数据交互的流程、传输模式和针对大数据仓库本身涉及相关数据处理的流程两大部分。系统间的数据交互流程和模式,决定了你的数据仓库平台的架构和设计,因此必须进行专项分析。数据仓库本身需要考虑的问题包括以下几个方面,在此制作目录结构的展示:

2.1 历史数据导入流程

2.2 增量数据导入流程

2.3 数据完整性校验流程

2.4 数据批量导出流程

2.5 数据批量查询流程

三、功能性需求-只做目录结构的展示

3.1.历史数据导入

3.1.1 XX系统数据

3.1.1.1 数据清单... 3

3.1.1.2 关联规则... 3

3.1.1.3 界面... 3

3.1.1.4 输入输出... 3

3.1.1.5 处理逻辑... 3

3.1.1.6 异常处理... 3

3.2 增量数据导入

3.3 数据校验

3.4 数据导出

3.5 数据查询

四、非功能性需求

4.1 性能

4.2 安全性

4.3 可用性

...

五、接口需求

5.1 数据查询接口

5.2 批量任务管理接口

5.3 数据导出接口

六、集群需求

  大数据技术自身的特点,决定项目的实施,必须考虑单独的开发环境和生产环境,否则在后续的项目实施过程中,必将面测试不充分和性能无法测试的窘境,因此前期需求分析阶段,必须根据数据规模和性能需求,构建单独的开发环境和生产环境。

6.1开发环境

6.1.1 查询服务器

6.1.2 命名服务器

6.1.3 数据服务器

6.2 生产环境

6.2.1 查询服务器

6.2.2 命名服务器

6.2.3 数据服务器

七、其他

...

八、写在后面的化

  其实公共数据平台的产品化设计的思想一直影响着我的思维模式,作为数据仓库,其实更多的是考虑规范的应用接口,工具化,但是现实情况确实逼良为娼,无奈之举。实施过程中即要考虑应用的开发,同时还需要考虑工具化的提炼,也许这才是大数据落地实施真正的难度。提供统一的数据数据导入工具,数据可视化工具、数据校验工具、数据导出工具和公共的数据查询接口服务管理工具才是大数据作为数据仓库发展的方向。也许这就是探索者的苦恼吧。未完待续....

展开阅读全文

[转] 我的数据仓库之路.

03-10

我的数据仓库之路!rn rn数据仓库是什么?BI是什么?自己的数据仓库之路如何继续下去?BI到底有没有前途?虽然从开始到现在已经过去两年了,但是我的疑问还在继续也将继续下去.......rn rn曾经在国内某民族通信企业(通过CMM5级认证)工作过一段时间,因厌倦了客户无休止的需求导致程序无休止的修改,也厌倦了某不懂编码X士项目经理无休止的加班要求(一个月只休息了一天),便走上了BI这条不归路。rn rn最初的BI知识,是由在公司接受了2周培训的哥们给我培训的,两个人两眼一抹黑便开始广东XX局点BI的开局工作,大家对BI知识懵懵懂懂的,还好对 SQLServer2000和Oracle我还不陌生,毕竟也用了4、5年的时间做过数据库程序开发(不管怎么样写个SQL脚本还是没问题的)。XX局点的数据仓库现在看起来并不太复杂,ETL工具是使用微软SQLServer2000的DTS作了一层包装,然后调用了SQLServer2000写的一堆存储过程,还有公司内部开发的一个数据迁移和处理二进制话单的工具,配置起来颇有些麻烦(开发者颇有些功底,但以后也不会再使用了);业务数据库只有 Oracle,还有些二进制文件;报表工具是国内一家厂商提供的,说实话开发效率挺高的,但土了点,稳定性也差了点;OLAP就是Analysis Service了。那时候不懂架构,只知道比葫芦画瓢,按照原来的样子进行代码编写。有一件比较搞笑的事,用户要求出一类报表,我和同事还不会OLAP,我就灵机一动写了数十张报表,满足不同维度和层次的要求,虽然效率很低。培训了两周后,就让我到某某移动开局去了,当然什么都没搞起来,这让我很没面子,同时也很没绩效。rn rn现在已经离开了那家曾经有过过劳死的企业(也许程序员就是IT民工吧,今天可以招上10000,明天也可以离去3000人,反正民工多的是啊),该结的都结清了,谁也不再欠谁,我也失去了憎恨和爱戴的心情了。rn rn这些都成为历史了,还是写写数据仓库的所谓架构吧。rn rn数据仓库的设计主要是这样的:rn rn业务系统—>ETL(DTS)—>原始数据库—>事实数据库—>OLAP—>前端报表。rn rn业务系统就是用户的Oracle数据库了,里面有一些业务数据(当然自己的系统数据字典还是有的),此外还有一些二进制话单文件。rn rnETL过程就是一堆存储过程(维度的抽取、原始数据的抽取、事实数据的日结),然后通过DTS任务包调度起来。rn rn原始数据库就应该是ODS数据库了,负责把数据原封不动的从业务系统抽取过来(部分也经过转化和清洗);出于对SQLServer2000性能的考虑,将每个业务数据表都分成历史表和当前表,当前表根据数据量的情况决定保留数据周期并定时转移到历史表中。rn rn事实数据库保存着聚合信息的数据,完成KPI指标的计算,以及维度的抽取工作;同时在进行聚合的同时完成数据清洗工作。其实清洗很简单的,就是对NULL 的处理,连对主外键的判断都没有,也许是业务系统的数据质量还算不错吧,维度的处理仅作更新和插入处理,来保证外键数据的匹配。不过 SQLServer2000的性能实在不敢恭维,大于1000万的数据表处理的勉勉强强的,只好建了许多了分区表(实际上就是每个月一张数据表,用视图 Union起来,这也是微软推荐的方式)。rn rnOLAP采用VBScript脚本对CUBE进行数据增量更新,说实话到现在也没太看明白每条语句的意思,对于每个分析主题建立分区(按月),主要是对MSOLAP的性能实在太不放心了。rn rn报表工具采用国内一家专业厂商的报表工具,有一个应用服务器,定义知识库和报表权限之类的内容,报表的开发还是比较容易的,托托拽拽的就成了,二次开发的函数有点困难,还好用户要求不高,经过摸索作了一些自定义处理。就是应用服务器有点不稳定,在我的长期摸索下也逐渐掌握了规律,写了一些案例;哎现在再也用不到了。说实话其实OLAP功能还是蛮强大的(主要是能够满足国内企业的报表功能和变态查询要求),OLTP报表功能就不敢恭维了。rn rn对于业务数据到原始数据的处理,完全采用增量抽取的原则(因为每个表都有了时间点);对于原始数据到事实数据的处理,则增加了一张log表,记录每次抽取的周期、跨度、与当前时间的差距和状态等等。对于OLAP的增量处理也是靠一张日志表决定处理的范围。唯一比较独特的可能是部分业务数据用户可能会更新,需要重新抽取、聚集和OLAP处理,这个时候在处理之前首先删除这段时间的数据,重新抽取、聚集和OLAP处理,当然是靠脚本来完成的。rn rn总体来讲这就是我一年多做BI的经验和所谓架构吧,当然也有许多问题,例如SQLServer2000的稳定性、性能考验等等问题,DTS处理过程中来时发生任务中断,需要察看日志,作进一步处理,对于源抽取、事实日结、OLAP处理的中断处理方式均不一致。对于SQLServer2000的死锁以及内存泄漏等问题也有了一定经验。对报表工具的理解也是我后来对各种报表工具学习的基础。rn rn经过一年多7、8个局点的锻炼,脸皮也变厚了,学习也麻木了,现成的版本,统一的流程,自己以为这就是BI的全部了,总之自己就是搞过数据仓库的人了,加上做过那么点数据库优化和数据迁移,感觉自己算是小牛一个了,呵呵。rn rn不幸的是今年年初又折腾到老路上去了,拼了老命干了1个月的java和WebService,搞得心神俱疲,才发现自己不年轻了,也不是做编码的料。rn rn于是乎辞职了,不管好歹也是从国内数一数二的大公司出来的,找个世界五百强还是没什么问题的,而且专业对口,属于那种天生就可以外出和客户交流的人,这可能是新公司对我的期望,要不然英语那么差劲,怎么可能轻易进来呢,待遇也还算不错,是原公司的1.5倍。其实我根本就不是那样的人,呵呵,不太喜欢和客户交流,不善于言辞,技术也是样样都知道样样不精通的那种。rn rn既然进来了,又开始搞BI了,不过已经下班了,回去后再续写新公司的BI篇章,呵呵。rn rn在新公司转眼已经呆了5个月,前三个月除了培训就是学习,向领导要了几次活干之后再也不要活干了,因为大家都无活可干,于是每天上上itpub学习一下 Oracle,或者交流一下数据仓库,积累一下人脉(刚学会的名词),英语本来是一个很重要的目标,可惜我总是不开窍,而且连半个假洋鬼子英语也说不好,现在要做国内项目了,英语成了我永远的痛。rn rn数据仓库知识没学到多少,Oracle知识却感觉长进了不少,每天培训不少,可有质量的培训却不多,当然即使有质量的培训也轮不到我等刚入公司的去学习。外企就是外企,每天总是拿着工资不干活,天天喝着咖啡、橙汁,总感觉像是被恩赐似的,很不爽,还是得找点事来做,不过三个月的懈怠确确实实把我从一个勤勤恳恳兢兢业业的老黄牛变成了一个彻头彻尾的懒虫了,每天早9晚6准时的很,也许这才是生活,名片也打印了,上面没有手机,就是八个小时之外不用来找我的意思吧。rn rn国外项目谈了将近一年了没谈成,我就失业了;另外一个国内外企的项目因为领导感觉我不善言辞,把我换掉了;只好做一个彻头彻尾的国内项目了,做一个小小的工程师也很不错,不用担责任想事情,反正我就是一个懒惰的人。一个月就换了3个工作,虽然什么都还没做。rn rn言归正传,国内企业就是国内企业,外表很光鲜,做起项目来尾巴就露出来了,大概国内的项目大都是一个应景之作吧,客户要求一个数据仓库项目1个半月就要完成,半个月的需求,一个月的设计开发和测试;更要命的是现在需求丝毫没有些许的概念,客户要求用国际化的行业经验来帮助制定相应的KPI,理论联系实际,怎么招,我也不知道怎么招,反正有售前人员请的国外顾问,能忽悠就忽悠吧。不过说归说,前期的工作还是要开展的。rn rn所谓的数据仓库架构,我也是第一次听说,改改一些概念,干脆一起来分享一下吧,没准还能成为行业标准,呵呵!该架构主要分为四层结构体系:rn> ODS层rn主要负责采集业务系统并保存一定期限内的相关业务数据。当然也可以满足用户对明细数据的查询要求,姑且也可以算作明细数据仓库。rn> 数据仓库层rn将ODS层经过质量检查、清洗、转换后,形成符合质量要求的公共数据中心。实际上与ODS层差别不大,都是建立以ER为中心的数据关系,方便以后的数据的聚合。rn> 明细数据集市层即前面所说的事实层rn按主题及KPI指标对数据仓库层数据进行进一步转换,将指标与维度组成数据集市。这是OLAP的数据基础。rn> 聚合数据集市层即OLAPrn在明细数据集市层的基础上,提供基于联机分析处理(OLAP)引擎的多维分析能力,解决联机分析功能和决策支持要求。rn> 数据展现层rn按照用户报表要求,提供用户报表界面及预警分发机制。rn rn其中前3层都是属于ETL层的,问题是层次出来了我的疑问也出来了,都是属于那种别人不操心我瞎操心的事。毕竟算是搞数据库出身的(搞过一些索引和简单的 SQL调优),最关心的还是性能问题。数据仓库是企业级的数据中心,每天上G的数据的企业不在少数,那么多的层次,使用工具能抽的完数据吗?说实话我实在不信任ETL工具,总感觉他没我写的SQL语句效率高;即使抽的完数据,那么多的层次转换能处理的完吗;即使处理完,如果万一一个环节出现问题,能回退或重新处理吗;处理完后那OLAP该怎么调度啊;数据质量(清洗转换)到底在哪个环节处理;数据质量到底包括哪些东西(除了主外键缺失和NULL值),兄弟比较愚笨,一直想不明白;不合质量要求的数据如何处理;入库的数据在业务库发生更改怎么办;业务数据没有时间戳怎么办;数据核对和校验工作如何进行;不管工具也好代码也好,到底有没有通用的处理流程(比如维度数据处理,原始业务数据抽取,事实表日结处理);还有就是到现在也没搞到合适的需求设计文档的模板 (如果哪位兄弟有可以帮忙提供一下)。这一系列问题我是横竖想不明白的,反正我的问题总是比别人多,学东西总比别人慢,还是人年龄大了真的退化了。rn rn关于数据仓库的逐步学习,发现不懂得越来越多了,希望大家多提点提点,数据挖掘我是一窍不通,高等数学没学好,算法自然也学不会,只怪我高中文科出身,信息管理系的文凭拿的还是文学学士,简直没脸见人了;业务建模和需求分析也不是我擅长的,因此我只能关心纯技术的东西,可是ETL工具把人写代码的权力也剥夺了,因此我只能关心一些大的方面了,这难道就是所谓的架构吗?不知道,哎,学吧!rn rn完了,希望不要占用大家的时间,还是带一句E文吧,TKS! 论坛

没有更多推荐了,返回首页