DW2.0下一代数据仓库架构_第23章 管理DW2.0环境(读书笔记)

版权声明:
该系列文章(DW2.0下一代数据仓库架构)内容系作者学习用笔记,
欢迎共同学习,所载内容版权归原书作(译)者所有,请勿转载商用。

    DW2.0环境是一个非常复杂的环境,需要很长的时间来构建。DW2.0环境涉及及企业的很多部分:日常操作,管理,战术战略决策甚至是
董事会。DW2.0环境也包含很多方面,如技术、商务、法律、工程以及人力资源等。因此,DW2.0环境是一个长期管理问题,需要小心去经营
管理。

数据模型
    DW2.0环境中的知识核心是数据模型。数据模型用来描绘如何用技术来满足业务需要。在很长一段时间里,数据模型都是用来指导不同
开发者的开发工作。如果能合理地运用数据模型,一部分开发接着另一部分开发的过程就像拼接一幅巨型拼图。换种说法,如果没有数据
模型,在DW2.0环境下要协调多个长期的多人开发项目是一项几乎不可能完成的任务。
    数据模型包含了多种不同的层次,有高层、中层、低层。第一步(也是最难的一步)是定义数据模型的整合范围。整合范围之所以很难
定义是因为它绝不是静止的,而是持续变化的,并且每一次改变都影响着数据模型。
    当这个范围变化太频繁,企业将遭受“范围蠕动”。
    高层数据模型很少需要随着时间的推移而维护,而中层数据模型和低层数据模型则会受到企业中的长期变化而明显影响。随着时间变化
中层模型中的主键,数据关系,数据域,数据定义,属性甚至是组属性都会发生改变。而每次改变的发生,相关的物理关系数据库也随之
改变。
    数据模型管理的部分工作是为了确保数据模型每次改变都有相应的对数据仓库的新开发和新修改。其中,要确保的最大问题是:
    1、不能引入数据模型中没有的新的基本属性,或者当要引用新的基本数据元素时,他们可以加入数据模型;
    2、新开发者能够将数据模型看做是前进的促进剂,而不是前进的壁垒。
    3、对DW2.0做的新修改要遵从数据模型。
    需要特别注意的是,数据的属性组和主键/外键对数据间的一致性非常重要,而数据模型的其他方面就没有那么重要了。
    另外,主数据派生出来的数据不需要遵从数据模型。

架构管理
    除了为遵循数据模型而需要的一个趋向数据模型的管理机构外,还必须有一个一般的架构机构来管理DW2.0架构。架构管理趋向于对架构
进行长期的监控。接下来给出架构管理需要注意的地方。
    确定什么时候需要归档区。大多数环境都不需要立即创建归档环境,而常常是过了一段时间后才创建它。架构管理为何时及如何创建归
档环境提供了指导。架构管理决定了归档环境的许多方面。例如:
    1、数据进入归档环境的时间
    2、数据在归档环境中停留多长时间
    3、将数据移出归档环境的准则
    4、归档平台
    5、归档环境的数据库设计
    6、被动索引是否将被创建
    7、是否创建被动索引
    8、归档数据的粒度级别
    9、其他内容
    确定是否需要近线区。如果需要近线区,那么架构管理就会确定一些重要的参数。例如:何时将数据移入近线区、整合区和归档区;要
存储那些元数据;近线区使用什么平台等等。随着时间的推移,对近线区的需求也会发生变化。在最初设计时,可能很明显就可以看到根本
不需要近线区。但经过一段时间后,决定需要的因素可能发生变化。因此,我们总有一天可能要用到近线区,而决定是否需要近线区只是
架构管理的工作。架构管理员能够做的决定包括以下几种:
    1、是否需要近线存储器
    2、数据进入近线存储器中的标准
    3、近线存储器所需的平台
    4、数据移出近线存储器的标准


    交互区是DW2.0环境中另一个架构管理员所关注的区。有些企业中有交互环境,而有些却没有。架构管理员主要解决如下的问题:
    1、是否需要交互环境?
    2、如果存在一个交互环境,那么它的相应时间是否合适,是否合乎所有服务标准协议的要求,可用性是否适当。是否合乎所有SLA要求
       交互环境是否可用于任何需要完成的报表,是否满足容量要求
    3、当数据移出交互环境时,其是否被适当地整合?
    4、假如要将遗留数据读入交互区,那么是否已将其适当地整合到应用当中?
    5、交互区工作在什么平台?

    架构管理员的另一项任务是确保不存在从一个数据集市到另一个数据集市的数据流。当管理员发现这种情况时,应当重定向一个数据集
市的数据流,使其流向DW2.0环境,然后再从DW2.0返回到另一个接受数据的数据集市。
  
    架构管理员还有一项任务是确保能够进行适当的监视对监视结果进行适当的解释。DW2.0有很多需要监控的活动。例如,需要监视交互区
中的交易和响应时间,还需要监视DW2.0环境其他部分的收及其使用情况。对DW2.0环境下的监视,还需要考虑一下几个问题:
    1、交互区中的交易是否正在被监视?
    2、交互区的可用性是否正在被监视?
    3、整合区中的数据使用是否正在被监视?
    4、休眠数据确定了吗?
    5、监视器会浪费大量系统资源吗?
    6、何时对监视结果进行检查?
    监视整合区数据使用的最重要的结果是决定什么时候创建一个新的数据集市。管理员查找整合区中重复的数据使用模式,当相同结构的
数据请求出现的次数足够多是,就表明需要数据集市。
  
    以上是DW2.0环境中的一些架构管理活动。但是DW2.0环境其他一些方面同样需要架构管理。
    毫无疑问,架构管理员需要掌握的一项能力是理解架构。如果让一个不知道架构的含义且不知道架构都该考虑哪些的人当架构管理员,
那肯定是白费功夫。
    架构管理的另一个重要部分是管理DW2.0中的ETL处理。DW2.0中的第一种ETL进程是传统的对从应用源中的数据的整合。此时需要检测的
问题包括:经过ETL处理的数据流动,数据转换的准确度,这些转换对分析机构的可用性,以及转换的速度、容易堵等。另外一类ETL工具是
文本转换,通过文本转换可以将非结构化数据转入DW2.0中的数据仓库中。此时的管理问题包括:进入DW2.0的数据量,使用的整合算法,DW
2.0中的数据类型等内容。要注意的是,两种类型的ETL转换是完全不同的。

元数据管理
    元数据是DW2.0环境中最重要的一个方面。由于种种原因,元数据管理是一项单独的任务。其中一些原因如下:
    1、元数据的捕获和管理工具的发展大大滞后于其他技术
    2、之前的元数据管理并不成功,失败次数由于成功次数
    3、相比DW2.0环境其他方面的业务案例,有关元数据的业务案例需要更多的关注
    当然,还可能存在更多的原因,使得元数据管理成为一个敏感问题。
    问题是需要使用元数据来将DW2.0环境的不同部分有意义地结合在一起。也就是说,如果没有一个有内聚性的元数据基础结构,DW2.0的
很多不同部分将无法协调他们之间的工作。
    元数据管理需要包含很多方面,其中包括:
    1、元数据的原始捕获
    2、元数据的编辑
    3、在DW2.0环境中的适当时间和地点是元数据可用
    4、元数据的持续维护
    5、DW2.0环境中不同地方的元数据分布
    6、元数据的进一步扩展
    7、元数据的归档
    除了以上这些考虑,元数据管理员还要确定一下重要内容
    1、元数据的运行平台
    2、捕获和存储元数据所采用的技术
    3、展示元数据或使元数据可用所采用的技术
    元数据的一个问题是它的短暂性。跟结构化数据不同,元数据存在于多种形式和结构中,因此很明显它不像其他数据形式一样具有稳定
性和适应性。
    元数据还有一个主要问题是它有多种数据形式。其中元数据的两种基本类型是:
    1、业务元数据
    2、技术元数据
    通常,技术元数据比业务元数据更容易识别和捕获,这其中的原因大家早就知道了。实际上业务元数据早就被看做是信息领域的一部分
但从厂商、产品、技术等方面都没有正式地定义业务元数据。所以相比较业务元数据,技术元数据更容易被找到并确定。

数据库管理
    DW2.0中另一个至关重要的方面是数据库管理,它要完成数据库的日常关注和管理。这一项技术工作,需要了解如何存储数据库,如何恢
复丢失的事务,如何判断何时丢失事务,当数据库关闭时如何备份数据库等问题。
    简而言之,当数据库出现问题时,数据库管理员负责完成对数据库的本分并使其运转。
    数据库管理的挑战之一是DW2.0环境所需的数据库管理活动的绝对数量。数据库及表是如此之多,以至于数据库管理员在任何一个数据库
上投入大量的时间是不可能的。因为他们的数据量太多,而且每个数据库都非常重要,因此,管理员需要用工具来查看这些组成DW2.0环境的
数据库和表的多方面。
    DW2.0中对数据库进行管理需要考虑一下问题:
    1、为DW2.0环境中的数据库管理的监视而选择工具。
    2、为DW2.0环境中的数据曲线及对其所带来的痛苦的预防而选择工具。
    3、确保在需要时能使用这些工具。
    通常,数据库管理是一个7天、每天24小时的工作。负责数据库管理的人应该在所有时间都随叫随到,并当出现问题时能够给出怎么去做
的建议。尤其在交互环境中,当数据库出现问题时,数据库管理员要尽可能地主动,因为故障和停机都会让人对环境不满意。但主动处理时
很困难的,因为数据库管理员所要应对的绝大多数任务都是有反作用的。

数据管理
    近些年,管理和遵循原则已经成为一个大的问题,因此数据管理的角色也就成为一个重要话题。过去数据管理的工作紧紧是系统的输入
和输出,而现在,数据的质量和准确性已经变得非常重要。
    在此架构中,数据管理已被提升到被公认需要承担责任的位置上。
    数据管理工作需要承担以下工作:
    1、确定哪些数据元素构成了记录系统
    2、对这些数据元素的数据质量标准的规范说明
    3、这些数据元素的相关算法和公式的规范说明
    为了区分数据库管理员和数据管理员的只能,需要考虑一下问题。当数据库出现故障并对系统不可用时,或是当性能下降并且出现一个
整体的系统停机时,需要数据库管理员来处理;而当终端用户发现记录中存在错误值时,或当需要设计新的数据库以及考虑数据来源和数据
转换时,就需要数据管理员了。
    因此,数据库管理员和数据管理员负责不同的事情。通常,数据库管理员是技术人员,而数据管理员是业务人员。试图将数据管理员的
工作看成是技术性的工作是不对的。
    数据管理员的一些工作包括:
    1、可以承担数据库的设计工作,尤其是设计中包含转换和映射的设计。
    2、能够回答指定数据元素内容的相关问题。
    3、讲解给业务分析人员都有那些数据以及如何最好地解释这些数据
    4、确保能够准确地设计映射和转换
    5、描述如何完成算法和程序逻辑以能 反映数据真正的业务含义。
    一些大型企业通常又多个数据管理员。如果一个数据元素在任何时候没有或有多个数据管理员,都将出现问题。

系统和技术管理
    系统和技术管理是DW2.0环境的一个整体部分。DW2.0环境最终运行于多个平台之上。由于数据、处理以及对DW2.0不同部分的要求都是多
样的,所以只有一个平台服务于整个DW2.0环境的情况是不常见的。相反,需要结合使用多种不同技术和平台以满足DW2.0处理的需要。
    DW2.0中有的地方要求很高的性能;有的地方关注与数据整合;有的地方要求能对数据进行长时间的存储;还有的地方则需要满足终端
用户的分析需求。总而言之,就是存在着许多不同的标准来确定在不同地方DW2.0环境是否是成功的。
    由于存在许多不同的需求,所以没有一种单一的技术或平台能同时满足所有的需求也就不足为怪了。
    因此,DW2.0中技术和系统的管理员需要充当多种角色,属于技术管理员的任务有:
    1、保证技术兼容性,例如,确保数据能在不同的环境下传送,系统的性能不受其他系统影响,数据能在所有的系统间整合,以及确保在

整个环境中的可用性等。
    2、确保多DW2.0中所有组件有一个长期的发展计划。
    3、保证元数据在DW2.0环境的各组件间有意义地变换
    4、确保终端用户清楚地了解对于不同的处理,应用DW2.0中的那些组件是合适的
    5、网络管理,确保整个DW2.0环境中能够且高效地进行通信
    6、定时,确保数据间能够以一种流畅无阻的方法相连接
    7、性能,确保整个DW2.0环境的性能是可接受的
    8、可用性,确保DW2.0中的各个组件在需要时能正常运行
    9、确保在终端用户需要时所需的元数据是可用的。
    技术管理员工作的一项重要内容是容量规划。技术管理员的工作在很多方面都类似于数据库管理员的工作。操作技术在很多时候是以交
互模式进行的,且没有人喜欢一直被昨天已经完成的工作所烦恼。而这也正是技术员及数据库管理员都可能遇到的情况。
    技术员想要摆脱交互模式工作的一个重要方法是进行适当的容量规划。并不是所有的差错和问题都和容量相关,但在大多数情况下是这
样的。当有足够的容量时,系统会正常工作,当容量不足时,系统会发生崩溃,出现很多不同的表现。
    在DW2.0环境中技术员需要注意集中容量及相关的指标:
    1、所有类型的处理,尤其在交互环境下的在线事务处理
    2、队列长度和容量,队列长度在系统中通常是一个瓶颈值
    3、缓存容量和命中率
    4、硬盘空间
    5、近线空间
    6、归档空间
    7、归档处理
    8、网络容量
    9、等等
    通过观察以上各种指标,技术员能够在许多问题发生之前就先行处理它。
    还有其他一些重要指标,包括整合区中休眠数据的增加,近线存储的增长,归档存储的增长,整个环境中数据访问概率的测量,网络瓶
颈等。技术员在任何地方提前避免重要的短缺问题都会更好。
    管理终端用户的关系和期望是DW2.0环境下的一项非常重要的管理工作,如果管理员忽视了这一点,管理就会存在很大风险。终端用户
期望的管理方式包括:
    1、设立服务台
    2、定期发布针对如何使用DW2.0的包含成功案例和帮助提示的实时简讯
    3、偶尔在内部开设一些讲述DW2.0环境的各个方面的内容和使用的教程
    4、实行指导委员会,这样终端用户就可以决定优先权和进度,至少给出一些意见。
    5、让终端用户参与DW2.0环境完整的设计和开发周期
    6、实行一体的“展示和讲述”会议,并由此实行内部会议
    7、偶尔让外部专业人员参加短期研讨会,以补充DW2.0的经验和信息
    服务标准协议的建立,也是管理终端用户关系的重要部分,服务标准协议是在DW2.0中日常的处理中测量的。它提供了一个可度量的开放
的系统性能记录。建立它对终端用户和技术员都有帮助,通常,服务标准协议同时解决了在线性能和可用性的问题。另外,分析环境中使用
的服务标准协议和在事务环境中使用的有很大的不同。
    有时候在DW2.0中需要进行统计处理,此时技术员必须仔细监视统计处理对资源利用的影响。到了一定程度时,需要建立单独的设备来
研究统计分析。

DW2.0环境管理人员的管理
    管理人员设计所有的管理活动,其任务就是保证满足管理DW2.0环境的各个目标和目的。如下是其中一些重要的方面。
    优化与优先冲突,当面临优化问题时,人们就会出现在经理办公室中。几乎总是会出现这样的情况,即一些部门要对DW2.0进行修改和
添加操作,与此同时另一个部门也要对其进行修改和添加操作。此时经理的工作就是解决至少是改善这些冲突。一些典型的考虑包括:
    1、在DW2.0中添加哪些组件可以得到最大的财政回报
    2、在DW2.0中添加哪些组件最容易、最快
    3、在DW2.0中添加哪些组件可以在组织机构可接受的时间框架内完成
    4、在DW2.0中添加哪些组件可以得到最大的战略回报
    对于企业,当需要决定添加或修改的顺序时,管理人员必须仔细考虑这些问题。此外,在管理DW2.0环境时还有其他要考虑的问题。
 
预算
    预算是管理人员影响组织机构的主要方式。得到了资金的项目可以继续进行,没有得到的项目无法继续进行。预算分为长期预算和短期
预算。在DW2.0环境中,几乎所有的事情都是以迭代的方式完成的。这意味着管理人员有机会做一些长期和短期的纠正,这也是预算过程中
很正常的一部分。

进度表和里程碑的确定
    里程碑和进度表的设置是管理人员工作的一个重要的部分。通常,管理人员并不创建最初的进度表和里程碑,而是让项目组提出进度表
和里程碑。然而,管理人员批准这些可接受的进度表和里程碑。由于DW2.0的各方面几乎都是以迭代方式来构建的,管理人员也就有足够多的
机会来影响整体的进度表
 
资源分配
    经理选择谁来领导项目是一门艺术。一种学派的观点是,当项目出现问题时,就投入更多资源。不幸的是,这会向组织机构传递一种错
误的信息:一种能够得到更多资源的可靠方法就是让项目陷入麻烦中。还有一种方法是任何项目陷入麻烦时就解雇项目负责人。不幸的是
有很多合理地情况会使一个项目陷入麻烦。管理的艺术在于确定即将面临的情况,并作出合适的决定。即管理人员要能够分辨出快速碾过减
速带和掉下悬崖的区别。

管理咨询人员
    由于缺少关于DW2.0中的开发技能,企业向外面的咨询人员寻求帮助是非常正常的。管理人员需要能够客观地挑选咨询公司,而不一定
挑选那些首选的公司,原因是首选的公司可能没有任何经验。另外,管理人员需要警惕那些咨询公司,他们以能力为卖点,却为项目配备了
一些新雇用的正在摸索经验的职员,这是以牺牲客户利益为代价的。有多种办法可确保咨询公司不向不知情的企业”出售货物”:
    1、不要签署超过12个月的合同。假如这个咨询公司是值得雇佣的,那么12个月后,如果工作圆满完成了就继续签署合同,相反,如果
没有按照合同的规定很好的完成工作,那么就再雇用新的咨询公司。
    2、确保有切实可行的短期交付物。这是判断是否真正取得进展的一个好办法。
    3、确保咨询公司具体说明都有谁参与项目,关键职位是关于设计和管理工作的
    4、安置两三名企业职员负责项目的关键职位,与顾问一起手把手工作。这样一旦出现问题,企业职员自己能够判断是否需要通知管理人员
    5、将各种关键的设计都写成文档,并保证任何时候这些文档对管理人员都是可用的
    6、检查咨询公司的各种资质证明。不要仅仅因为咨询公司是一家大型的知名公司,就轻易地认为它一定能建立DW2.0环境
    7、警惕咨询公司禁止外来专家偶尔对工作进行审查。一家有信心、有实力的咨询公司会很乐意让其他专家进行审查,尤其是设计,开发
实施出现问题的时候
    8、警惕与硬件/软件供应商绑定在一起的咨询公司。咨询公司提出的建议常常是一种可察觉的供应商的产品。
    9、公开与其他企业共享管理经验。如果其他管理人员公开讨论他们的经验,那么你可以从中学到很多东西
    10、警惕展示一个别的公司的经理的供应商。在大多数情况下,这些经历都有一些你并不知道的安排。在某些情况下,咨询公司的经理
事实上就是供应商的雇员或者至少是供应商的代理
    11、警惕供应商实现安排好咨询公司以达到他们自己的目的。很多软件供应商与咨询公司秘密地勾结,你获得的评测结果很可能是不正确的
    12、警惕那些声称做产品套件的市场评估的公共顾问。这些顾问与供应商经常做一些秘密地安排,目的就是诱使你购买他们的产品,而不是给你一些诚实的产品市场评估
    13、警惕那些声称做市场研究和产品评估的公司。你应该清楚,很多调查公司会向供应商出售一些服务,这会对供应商的产品评估产生
影响。如果市场评估公司声明了他们花在市场调查以及产品评估上的费用,那些供应商的评估是有效的。但如果市场调查公司隐瞒了对供应商
进行评估的费用,那么市场调查公司所做的各项建议及评定就一定是不可信的。

总结
    总之,DW2.0环境的管理工作体现在很多方面,包括:
    数据模型
    ETL环境
    数据库
    管家
    技术及系统
    网络管理
    归档处理
    近线存储
    交互处理
    元数据管理

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1312148/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/26613085/viewspace-1312148/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值