整理混乱数据数据仓库专家


2008 6 16

InfoSphere MDM Server 可以帮助公司避免最重要的资产受到损害:关于客户、产品、伙伴、合同等的信息。它提供了一种主数据解决方案。
来自 IBM Database Magazine

前言

InfoSphere MDM Server 可以帮助公司避免最重要的资产受到损害:关于客户、产品、伙伴、合同等的信息。它提供了一种主数据解决方案。从 20 世纪中期开始,大公司纷纷开始构建自己的 IT 应用程序,购买打包的应用程序,实现新奇的 ERP 系统,参与 CRM EDW 热潮。按照这种孤立项目方式,每个项目都只追求自己的目标。因此形成了混乱的主数据环境。更复杂的是,又有 100 多家公司从这些公司取得数据并将这些数据掺杂在一起。

在大多数公司中,产品、客户、职员、地址和相关方数据分散在许多系统中。每个系统都有各自的精度、业务规则和标准。如果有人提出古怪的问题,比如我们究竟有多少产品?如何把一组产品和服务打包在一起,在网上出售?或者如何找到花费最大的客户?,这就会使主数据系统的缺点暴露出来了。

这就是所有 IT 会议都非常关注主数据管理(MDM)的原因。IBM MDM 领域推出了一个新品牌(InfoSphere)和一种新产品(InfoSphere MDM Server)。InfoSphere 引起了广泛的关注,因此 IBM 启动了一个新的 InfoSphere Data Warehouse 项目并把 InfoSphere 品牌加入 Balanced Warehouse 系列。可以在参考资料中列出的 InfoSphere Balanced Warehouse 页面上找到更多信息。

 

<!--[if gte vml 1]><v:shapetype id="_x0000_t75" coordsize="21600,21600" o:spt="75" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f" stroked="f"> <v:stroke joinstyle="miter" /> <v:formulas> <v:f eqn="if lineDrawn pixelLineWidth 0" /> <v:f eqn="sum @0 1 0" /> <v:f eqn="sum 0 0 @1" /> <v:f eqn="prod @2 1 2" /> <v:f eqn="prod @3 21600 pixelWidth" /> <v:f eqn="prod @3 21600 pixelHeight" /> <v:f eqn="sum @0 0 1" /> <v:f eqn="prod @6 1 2" /> <v:f eqn="prod @7 21600 pixelWidth" /> <v:f eqn="sum @8 21600 0" /> <v:f eqn="prod @7 21600 pixelHeight" /> <v:f eqn="sum @10 21600 0" /> </v:formulas> <v:path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect" /> <o:lock v:ext="edit" aspectratio="t" /> </v:shapetype><v:shape id="_x0000_i1025" type="#_x0000_t75" alt="" style='width:600pt; height:.75pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image001.png" o:href="http://www.ibm.com/i/v14/rules/blue_rule.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
<!--[if gte vml 1]><v:shape id="_x0000_i1026" type="#_x0000_t75" alt="" style='width:6pt;height:4.5pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

<!--[if gte vml 1]><v:shape id="_x0000_i1027" type="#_x0000_t75" alt="" style='width:600pt;height:3pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

<!--[if gte vml 1]><v:shape id="_x0000_i1028" type="#_x0000_t75" alt="" style='width:12pt;height:12pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image006.gif" o:href="http://www.ibm.com/i/v14/icons/u_bold.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

回页首

 

InfoSphere MDM Server 是什么?

近几年,IBM 提供了两个 MDM 产品(WebSphere Product Center WebSphere Customer Center)。新的 MDM Server 是一个多种形式的 MDM 解决方案,这意味着它可以处理产品、客户等多方面的数据。它处理困难的事务性 MDM”,也就是管理那些跨许多运营系统共享的主数据。

主数据是通常存在于企业中多个数据库中的非事务性数据。这种数据以自己的方式进入 MDM 系统,它们通常描述关键的业务情况,影响重要的业务过程。所以对于次要的领域(比如公司业余排球队或咖啡供应商),不需要用 MDM 来管理,但是对于客户和产品,就应该用 MDM 跟踪其变化。

IBM 注意到公司往往按照不同的级别实施 MDM,随着发展,许多公司会提升 MDM 级别并添加 MDM 功能(见图 1)。


1. MDM 级别实施
<!--[if gte vml 1]><v:shape id="_x0000_i1029" type="#_x0000_t75" alt="MDM 实施级别" style='width:367.5pt;height:74.25pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image007.jpg" o:href="http://www.ibm.com/developerworks/cn/data/db2mag/dbt13n2/dbt13n2_f3/001.jpg" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

典型的实现级别包括:

  • 整合(Consolidation)。这个步骤是 MDM 的必有部分,涉及从多个系统收集数据、合并数据并把数据交付给单一目标。您可能不知道数据来自哪里或者谁将使用它,但是至少创建了数据的单一版本。这项工作会产生短期的好处,但是不会改变总体的混乱局面。清理数据之后几个月,数据又会变得混乱。在我曾经参与的一个数据质量项目中,我们试图清理产品和价格的清单,并在旧数据中发现了一些奇怪的现象:一组价格是在三年前的一个数据质量项目中调整过的,另一组价格在八年前调整过,其他调整发生在更久以前。每个数据质量项目都花费了大量资金,但是都没有对数据清单的质量产生持久的影响。相反,这种调整常常使数据清单的质量变得更糟糕。
  • 注册(Registry)。整合后的数据被存储在一个特殊的数据存储中,这个数据存储提供某些服务(比如添加和修改数据)并对访问数据的用户进行审计。现在,您已经对主数据的混乱局面有了总体认识,但由于还没有修改数据输入过程,要避免源系统混乱主数据存储还必须花一番功夫。
  • 共存(Coexistence)。MDM 注册的作用越来越大并与事务性存储库共存,它从源系统接收主数据并发送给其他系统。还要添加业务规则,从而管理哪些系统可以修改数据以及这些修改应该发送到什么地方。在这个级别上,要防止源系统制造混乱并对主数据进行同步。
  • 事务中心(Transaction hub)。MDM Server 是关键主数据的控制中心;对主数据的修改都在这里进行并传播给其他应用程序。这个存储库提供关键实体的单一视图,但是可以根据访问者的安全需求和用户类型提供多个实体视图。通过实现这个 MDM 级别,可以从源头防止人们制造混乱。主数据的创建和维护都受到严格的审计和检查。

IBM 希望各个公司最终都达到事务中心级别,但是企业需要一定的时间才能发展到这个级别。企业可能应该先以整合或注册级别作为目标。

多种形式的 MDM

IBM 所说的多种形式的 MDM” 是指能够管理来自不同领域的主数据。MDM Server 的第一版能够管理的数据领域包括:

  • 相关方:代理商、客户、职员、潜在客户、供应商
  • 帐户:合同、协议、交易、奖励计划、财务帐户
  • 产品:部件、产品、产品包、项目/SKU、服务、条款和条件
  • 位置:位置、地址、联系方法、地理/区域

在以后的版本中会增加更多的数据领域,但是目前这些已经包含了最重要最常见的数据领域。

存储主数据仅仅是事务中心的作用的一小部分。InfoSphere MDM Server 附带大约 800 个过程,用来帮助管理和控制数据。这些服务分为四组:完整性、操作、智能化和数据治理(见图 2)。


2. InfoSphere MDM Server 服务结构
<!--[if gte vml 1]><v:shape id="_x0000_i1030" type="#_x0000_t75" alt="InfoSphere MDM Server 服务结构" style='width:359.25pt;height:153pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image008.jpg" o:href="http://www.ibm.com/developerworks/cn/data/db2mag/dbt13n2/dbt13n2_f3/002.jpg" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

InfoSphere MDM Server 的组件包括:

  • 完整性:数据质量组件
  • 操作:业务服务(比如添加客户或修改位置)
  • 智能化:关于操作和修改的业务规则,用来防止用户弄乱主数据
  • 数据治理:安全和隐私规则,规定谁可以管理或查看主数据的哪些部分
  • 知识:通过复杂的相关方层次结构查看主数据,并对主数据的理解和使用进行审计跟踪

属于 InfoSphere 品牌的产品用来提供信息服务,这些服务可以从多个 IBM 产品系列获取信息。InfoSphere MDM Server 有许多开箱即用的集成点,可以与 IBM Industry Models IBM Information Server 集成。

IBM Information Server

InfoSphere MDM Server 附带许多 QualityStage 作业,这些作业有助于用整合的数据填充 MDM ServerIBM Information Server 是用于主数据的数据集成平台。其核心是 WebSphere QualityStage,这是一种提取、转换、装载(ETL)和数据质量工具,能够处理大批量数据或作为 SOA 服务运行。

有助于主数据整合的 QualityStage 功能包括:

  • 标准化。处理文本字符串是 QualityStage 的特长;它能够解析相关方名称、地址、产品清单、位置、卡号和电话号码,并把它们转换为一种标准格式,使后续的匹配和挑选步骤更加顺利。
  • 匹配。这个产品提供了多种匹配数据的方法,但是其中最先进的是或然性匹配(probabilistic matching),这种方法用模式和频率统计数据识别相似的字符串,可以匹配拼写相似的产品或名称。
  • 挑选(Survivorship)。如果在两个系统中发现相同的主数据,就需要决定如何把它们整合成单一记录。希望从不同的记录取得最好的部分,比如从一个源取得新的电话号码,从另一个源取得邮寄地址。这样就可以结合不同记录的片段,避免出现相同数据的多个版本。挑选规则和技术有助于产生更精确的记录。
  • 集成。QualityStage 包含 ETL 工具的许多组件,可以连接大多数数据库和平面文件源,可以执行查询、聚合和转换,它的元数据服务可以跟踪数据来源和运行时统计数据。

 

<!--[if gte vml 1]><v:shape id="_x0000_i1031" type="#_x0000_t75" alt="" style='width:600pt;height:.75pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image001.png" o:href="http://www.ibm.com/i/v14/rules/blue_rule.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
<!--[if gte vml 1]><v:shape id="_x0000_i1032" type="#_x0000_t75" alt="" style='width:6pt;height:4.5pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

<!--[if gte vml 1]><v:shape id="_x0000_i1033" type="#_x0000_t75" alt="" style='width:600pt;height:3pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

<!--[if gte vml 1]><v:shape id="_x0000_i1034" type="#_x0000_t75" alt="" style='width:12pt;height:12pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image006.gif" o:href="http://www.ibm.com/i/v14/icons/u_bold.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

回页首

 

IBM Industry Models

InfoSphere MDM Server 附带一组到 IBM Industry Models 的映射。这些模型涉及银行、保险、电信和零售数据仓库,这些数据仓库保存着公司最重要的业务和分析数据。InfoSphere MDM Server 附带许多映射和数据集成作业,它们可以把主数据放到模型的数据仓库表中,从而支持根据主数据的单一版本生成报告。

QualityStage 映射是针对目标 InfoSphere MDM Server 配置的;但是,仍然需要做一些工作才能映射到源系统。Industry Model 映射也需要根据这些模型的特殊情况和扩展进行调整。

 

<!--[if gte vml 1]><v:shape id="_x0000_i1035" type="#_x0000_t75" alt="" style='width:600pt;height:.75pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image001.png" o:href="http://www.ibm.com/i/v14/rules/blue_rule.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
<!--[if gte vml 1]><v:shape id="_x0000_i1036" type="#_x0000_t75" alt="" style='width:6pt;height:4.5pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

<!--[if gte vml 1]><v:shape id="_x0000_i1037" type="#_x0000_t75" alt="" style='width:600pt;height:3pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

<!--[if gte vml 1]><v:shape id="_x0000_i1038" type="#_x0000_t75" alt="" style='width:12pt;height:12pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image006.gif" o:href="http://www.ibm.com/i/v14/icons/u_bold.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

回页首

 

业务驱动力

MDM 的事务中心级别需要大量投资;因此,它需要业务驱动力和业务支持。企业希望提高运营效率、提高销售量、改进与客户的关系和改进合法性,还需要解决企业并购带来的难题。这就是产生业务驱动力的地方。企业需要找到适当的解决方案。

如果企业已经在客户关系管理、企业数据仓库、企业应用程序集成和面向服务体系结构方面投入了大量资金,那么可能很难说服他们再在 MDM 方面投资。MDM 的卖点在于先进的数据质量和数据治理技术,以及成熟的信息管理技术及其易用性,而 InfoSphere MDM Server 具备所有这些优点。

 

<!--[if gte vml 1]><v:shape id="_x0000_i1039" type="#_x0000_t75" alt="" style='width:600pt;height:.75pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image001.png" o:href="http://www.ibm.com/i/v14/rules/blue_rule.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
<!--[if gte vml 1]><v:shape id="_x0000_i1040" type="#_x0000_t75" alt="" style='width:6pt;height:4.5pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

<!--[if gte vml 1]><v:shape id="_x0000_i1041" type="#_x0000_t75" alt="" style='width:600pt;height:3pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

<!--[if gte vml 1]><v:shape id="_x0000_i1042" type="#_x0000_t75" alt="" style='width:12pt;height:12pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image006.gif" o:href="http://www.ibm.com/i/v14/icons/u_bold.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

回页首

 

相关内容

关于 Infosphere 的博客文章

InfoSphere IBM 的一个新品牌,包含来自几个产品系列(包括 DB2、其他 Information Management 产品和 WebSphere)的软件。这些产品组合成一个软件包,用来执行复杂的信息管理任务。InfoSphere MDM ServerInfoSphere Risk and Fraud Warehouse InfoSphere Balanced Warehouses 是第一个产品包中的部分软件。

最近,我很幸运地从一位著名的 Infosphere 专家那里获得了反馈,并把这次访谈的内容在我的博客中与大家分享。下面是他对 infosphere Infosphere 的解释:

infosphere 基本上有两个意思。一个意思是静态的,不太有趣,它大致相当于电脑空间(cyberspace“infosphere”(小写的 “i”)是信息代理和对象、服务、关系、过程和它们所处的空间的总称。这个概念实际上比电脑空间更宽泛,因为它还包含离线和相似的领域,比如图书馆中的书或电冰箱上帖着的购物单等信息源。

第二个意思就有趣得多了。“Infosphere”(大写的 “I”)表示整个真实世界。这是一种从信息的角度看待事物的方式。这意味着 Infosphere 相当于哲学家所说的存在“Infosphere” 是一个非常强大的概念。它意味着为所有事物建立一个统一的词汇表,包括 DNA、计算机、物理粒子、神化形象、社会环境、人、公司、webbot、各种通信形式、生物圈、生态系统和电脑空间等等。

可以在博客上阅读完整的 访谈记录

 

<!--[if gte vml 1]><v:shape id="_x0000_i1043" type="#_x0000_t75" alt="" style='width:600pt;height:.75pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image001.png" o:href="http://www.ibm.com/i/v14/rules/blue_rule.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
<!--[if gte vml 1]><v:shape id="_x0000_i1044" type="#_x0000_t75" alt="" style='width:6pt;height:4.5pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

<!--[if gte vml 1]><v:shape id="_x0000_i1045" type="#_x0000_t75" alt="" style='width:600pt;height:3pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

<!--[if gte vml 1]><v:shape id="_x0000_i1046" type="#_x0000_t75" alt="" style='width:12pt;height:12pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image006.gif" o:href="http://www.ibm.com/i/v14/icons/u_bold.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

回页首

 

参考资料

 

关于作者

<!--[if gte vml 1]><v:shape id="_x0000_i1047" type="#_x0000_t75" alt="" style='width:600pt;height:3.75pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

 

<!--[if gte vml 1]><v:shape id="_x0000_i1048" type="#_x0000_t75" alt="" style='width:3pt;height:3.75pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->

Vincent McBurney [vincent.mcburney@bearingpoint.com] 是与 Bearingpoint 合作的一名 IT 顾问,Bearingpoint致力于全球各地的各种大型项目。目前,他正在澳大利亚的墨尔本从事数据仓库项目,还为 Tooling Around on the IBM Information Servertooling.notlong.com)撰稿。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值