InfoSphere Information Server for Data Integration DataStage 产品白皮书

1、 IBM InfoSphere Information Server for Data Integration 简 介

IBM InfoSphere Information Server for Data Integration 是 IBM 提供的革命性软件平台,它可以帮助组织从分散在其系统中的各种复杂信息中获取更多价值。它让组织能够整合分散的数据,在需要  的地方和时间,按顺序和关联关系把可信的信息交付给特定的人员、应用程序和流程。InfoSphere Information Server 帮助业务人员和 IT 人员进行协作,理解来自任何来源的任何类型的信息的含义、结构和内容。它可以显著提高在整个企业内一致且安全地清理、转换和交付信息的生产力和效率,这  样就可以以新的方式访问和使用信息,从而促进创新、提高运营效率并降低风险。

InfoSphere Information Server for Data Integration for Data Integration 让客户可以跨分析、运营和事务环境应用一致的可重复的流程以解决企业级数据问题,不受数据量、复杂性或延迟的限制。InfoSphere Information Server 的每个核心产品可以作为集成平台的一部分使用,也可以作为单独的集成产品使用。

这些产品由一个全面的集成服务平台支持,提供全程数据集成、元数据管理、任何数据源与任何  平台上的任何应用程序之间的连接以及通过并行处理技术无限制地扩展。可以按任何配置部署这些功  能以支持事件驱动的或按时间表执行的处理。还可以通过 InfoSphere Information Services Director 交付基础设施“随需”使用 InfoSphere Information Server for Data Integration 数据集成功能,从而补充 Enterprise Application Integration (EAI)、Business Process Management (BPM)、Enterprise Information Integration (EII) 和 Application Servers 集成基础设施。

InfoSphere Information Server for Data Integration 提供一个全面的模块化解决方案,可以根据业务需求和客户预算扩展。客户既可以部署完整的 InfoSphere Information Server for Data Integration 以处理整个企业数据集成生命周期,也可以使用单独的集成产品并根据需要添加其他组件。这种灵活  的方式让客户既可以通过完整的 InfoSphere Information Server for Data Integration 实现全面集成, 也可以通过购买一个或更多组件的许可证实现部分集成,以后可以添加其他组件以创建单一的集成解  决方案。

InfoSphere Information Server for Data Integration 可以提高从事数据集成项目的开发团队的生产力,改进这些开发团队之间以及开发人员与提出需求的业务用户之间的协作,促进项目团队内部和之  间的重用,这些都会产生价值。

为 SAP、Oracle、PeopleSoft、Siebel、SalesForce.com 等公司的企业应用程序预先构建的接口扩展了 InfoSphere Information Server 的功能范围。这些包帮助公司通过企业数据仓库或 ERP 厂商业务智能化解决方案集成来自这些企业应用程序的数据,构建分析解决方案。

2、功能和益处

2.1 功能

InfoSphere Information Server for Data Integration 提供一套统一的可单独购买的产品模块(即套件组件),可以解决多种类型的业务问题。可以跨项目重用信息检验、访问和处理规则,这会提高一  致性、增强对数据的管控并提高 IT 项目的效率。

图 1:IBM Information Server

IBM Information Server 让企业能够实现 5 种关键的集成功能:

  • 连接任何数据或内容,无论它驻留在什么地方——大型机或分布式系统,内部或外部;
  • 了解并分析信息,理解数据源的内容、质量和结构,从而在整个企业中集成和传播数据 之前全面了解数据;
  • 清理数据,确保数据的质量和一致性,让公司可以访问任何个人或业务实体及其关系的 权威且一致的视图;
  • 转换大量数据,从而有效且高效地从原数据源向目标提供丰富的有针对性的信息;
  • 交付数据,让人员、流程和应用程序可以像访问单一资源一样访问和集成不同类型的数 据和内容,无论信息驻留在什么地方。

这些功能的基础是一个共用的元数据和并行处理基础设施,它为整个平台提供支持和自动化。产  品组合中的每个产品还可以连接许多数据和内容源,能够通过多种机制交付信息。另外,可以通过便  于发布的共享服务在面向服务架构中使用这些功能。

IBM Information Server 提供:

  • 最广泛的访问信息源的能力;
  • 在使用这些功能的方式方面的灵活性,包括支持面向服务架构、事件驱动的处理、按时间 表执行的批处理以及 SQL 和 Java 等标准 API。
  • 最全面的集成功能,包括联合、ETL、内联转换、复制和事件发布;

平台的功能广度和灵活性让它能够解决许多类型的业务问题,满足许多类型的项目的需求。这可  以增加重用的机会,加快项目的速度,提高信息的一致性,增强信息治理。

了解数据

InfoSphere Information Server for Data Integration 可以帮助您自动地发现、定义和建模信息内容和结构,了解和分析信息的含义、关系和沿袭。通过在系统内自动执行数据剖析和数据质量审计,组  织可以实现以下目标:

  • 了解数据源和关系
  • 避免使用或传播劣质数据的风险
  • 通过自动化提高生产力
  • 利用现有的 IT 投资

InfoSphere Information Server for Data Integration 让企业中不同职责的人员可以更轻松地协作。数据分析师可以使用分析和报告功能,生成并持续监视集成规范和业务规则。主题问题专家可以使用  基于 Web 的工具定义、注释和报告业务数据的字段。共用的元数据基础让各类用户可以使用针对其职责优化的工具创建和管理元数据。

清理信息

InfoSphere Information Server for Data Integration 支持通过标准化、检验、匹配和合并数据提高信息质量和一致性。它可以证明和丰富共用的数据元素,使用邮政记录等可信的数据提供名称和地址  信息,跨数据源或在数据源内匹配记录。InfoSphere Information Server for Data Integration 允许用来自多个源头的最好的信息为每个独特实体保留单一记录,这有助于跨源系统生成全面、准确的单一  信息视图。

把数据转换为信息

InfoSphere Information Server for Data Integration 可以转换和丰富信息,确保它具有适当的上下文。数百个预先构建的转换函数可以组合、重构和聚合信息。转换功能丰富且灵活,可以满足各种集  成场景的需求。例如,InfoSphere Information Server 为 U.S. Health Insurance Portability and Accountability Act (HIPAA) 等复杂数据类型提供内联检验和转换,为不同类型的数据提供高速的联结和排序。InfoSphere Information Server for Data Integration 还提供大批量复杂数据转换和转移功

能,可以在单独的提取-转换-装载 (ETL)  场景中使用它,也可以作为应用程序或流程的实时数据处理引擎。

交付信息

InfoSphere Information Server for Data Integration 可以向需要信息的人员、流程或应用程序显示、同步或交付信息。可以使用联合、基于时间的处理或基于事件的处理交付信息,大批量地转移数  据,或者在无法整合的情况下就地访问信息。

InfoSphere Information Server for Data Integration 提供对各种信息源的直接访问,包括大型机和分布式系统。它可以访问数据库、文件、服务和打包的应用程序,以及内容存储库和协作系统。配套  产品支持高速复制、跨数据库同步和分布、更改数据捕捉和基于事件的信息发布。

2.2 使用 InfoSphere Information Server for Data Integration 益处

下面以一个比较全面的企业数据仓库开发项目为例。在这个项目中,6    个月内内部或外部服务的手工编程成本大约是 100 万美元,把生产力提高 50% 不但会节省 50 万美元的人工成本,通常还会让项目提前几周或几个月完成。即使完全冲销了本项目的软件成本(这不太可能,因为我们的软件通  常在基础设施层中使用,因此可供许多项目使用),项目期间的 ROI 仍然是正值。

下图说明 IBM 客户通过使用 IBM Information Server for Data Integration 产品组合在生产力方面取得的显著益处。

业务价值

如果没有有效的信息集成,大多数重要的业务目标都无法实现。实际上,IBM Global CFO 调查发现,非常有效地实现信息集成的组织产生业务价值的可能性比在这方面做得很差的组织高 5 倍。关键的业务目标(比如单一的客户视图、业务智能化、供应链管理以及 Basel II 和 Sarbanes-Oxley (SOX) 遵从性)都需要一致、完整且可信的信息。InfoSphere Information Server for Data Integration 帮助公司集成信息,从而更快地产生业务结果并提高结果的质量。

  • 对于业务智能化,InfoSphere Information Server for Data Integration 让公司可以更轻松地开发统一的业务视图,有助于做出更好的决策。它有助于了解现有的数据源,对信息进行清
  • 理、纠正和标准化,装载可在企业中各处重用的分析视图。
  • 对于主数据管理,InfoSphere Information Server for Data Integration 跨源系统显示存储信息的位置和方式,这可以简化权威性主数据的开发。它还可以把分散的数据整合为可靠的单一  记录,对信息进行清理和标准化,消除重复,跨系统链接记录。可以把这些主数据装载进运  营数据库、数据仓库或 IBM MDM Server 等主数据应用程序中。还可以根据需要完全或部分组装记录。
  • 对于基础设施合理化,InfoSphere Information Server for Data Integration 显示系统之间的关系并为整合实例或转移陈旧系统中的数据定义迁移规则,这可以降低运营成本。数据清理和  匹配确保新系统中的数据质量。
  • 对于业务转换,InfoSphere Information Server for Data Integration 提供可重用的信息服务, 可以把它们插入应用程序、业务流程和门户中,这可以加快开发并提高业务敏捷性。这些基  于标准的信息服务由信息专家集中地维护,但是在整个企业中都可以使用它们。
  • 对于风险管理和合规性,InfoSphere Information Server for Data Integration 可以提供完整、权威的信息视图并证明信息的沿袭和质量,这有助于改进可见性和数据治理。这些视图可以  作为共享服务在各处使用和重用,同时集中地维护其中的规则。

一些成功的客户案例如下:

差别化

IBM Information Server for Data Integration 通过提供以下特性提高了信息集成的速度和灵活性:

  • 与业务和 IT 目标保持一致

组织在数据集成方面面对的难题之一是,确保业务用户的目标和 IT 追求的实现方式会产生符合共同目标的数据。如果不全面了解和满足这些目标,使用的数据很可能缺少某 些性质,无法显著改进业务结果。

提供完整的元数据集成和数据世系信息

必须能够访问特定数据的起源和演变过程的相关信息,这对于证明数据的可信性很重 要。掌握了这些信息,就可以将战略性业务决策付诸实施,且利用宝贵的 IT 资源追踪特定数据的历史以提供用户需要的保证。

  • 使用 24x7 的运营性数据集成平台

新的数据输入会不断地进入您的环境,这要求数据集成战略一直发挥作用,而不是运 行一次就完成了。

  • 受益于线性可扩展性和基础设施优化

面对可用来洞察业务的数据量的来袭,数据集成环境必须能够适应巨大的数据量,这 是一个非常现实的难题。无论您的项目是针对某一业务线,还是用于整个组织的数据集成,通过使用 Information Server,您都会受益于最优化、很少需要更改的基础设施。

  • 可以连接几乎所有数据源

数据集成战略产生的价值在一定程度上由访问各种数据源中的异类信息的能力决定, 包括业务应用程序、数据库、遗留系统和云。InfoSphere Information Server for Data Integration 提供丰富的连接功能,可以快速有效地连接这些数据源。

  • 提供有助于提高组织效率的生产力工具

部署成功的数据集成解决方案需要业务用户的配合,还需要支持实现解决方案的技术 团队。InfoSphere Information Server for Data Integration 可以满足这两个群体的需要,可以提高生产力、洞察力和效率。

  • 为快速、成功的数据集成部署提供健壮的功能

即使有了帮助满足业务和 IT 需要、解决大多数数据集成问题和大规模扩展的技术, 要想成功地使用这些功能以确保项目达到高水平,仍然依赖于几个关键因素。IBM   提供了许多创新的功能,可以帮助您实现目标。

价值主张

IBM Information Server for Data Integration 为客户提供的价值如下:

  • 为企业信息架构提供全面的统一的基础,可以根据数据量和处理需求扩展;
  • 确保可审计的数据质量,这是在整个企业中提供可信信息的基础;
  • 元数据驱动的集成,这会大大提高集成和丰富信息的生产力和灵活性;
  • 一致的可重用的信息服务,以及应用程序服务和流程服务,这是企业必备的 ;
  • 通过可靠的符合行业标准的解决方案 和专门技术加快产生价值的速度;
  • 最广泛、最深入的连接能力,可以访问各种数据源中的信息:结构化、非结构化、大型机 和应用程序 。

3、InfoSphere Information Server 架构

IBM InfoSphere Information Server 提供一个统一的架构,此架构适用于所有类型的信息集成。服务器架构的核心是共用的服务、统一的并行处理和统一的元数据。

此架构是面向服务的,这让 IBM InfoSphere Information Server 可以在企业面向服务架构中工作。面向服务架构还可以单独连接各个 InfoSphere Information Server 产品模块。

由于消除了功能重复,此架构可以高效地使用硬件资源,减少部署集成解决方案所需的开发和管理工作量。


图 2. IBM Information Server 高层架构

下面介绍此架构中的五个主要组件:

统一的用户界面

InfoSphere Information Server 的表面是一个共用的图形化界面和工具框架。IBM InfoSphere Information Server 控制台和 IBM InfoSphere Information Server Web 控制台等共享的界面为各个产品提供共同的界面、图形化控件和用户体验。目录浏览、元数据导入、查询和数据浏览等共用功能以一致的方式提供底层的共用服务。InfoSphere Information Server 提供用于详细开发工作的富客户机界面,以及在 Web 浏览器中运行的用于管理的瘦客户机。

应用程序编程接口 (API) 支持多种接口风格,包括标准的请求-响应、面向服务、事件驱动和按时间表执行的任务调用。

共用的服务

InfoSphere Information Server 完全是在一套共享服务之上构建的,这些服务集中管理整个平台中的核心任务。这些任务包括安全性、用户管理、日志记录和报告等管理任务。共享的服务可以在一  个地方集中地管理和控制这些任务,无论使用哪个套件组件。共用的服务还包括元数据服务,它们在  整个平台中提供标准的面向服务的元数据访问和分析。另外,共用服务层管理从任何产品功能部署服  务的方式,因此可以通过一种一致且容易使用的机制在 SOA 中以共享服务形式发布清理和转换规则或联合的查询。

InfoSphere Information Server 产品可以访问三大类服务:

  • 设计服务 帮助开发人员创建与功能相关的可重用服务。例如,InfoSphere Information Analyzer 调用一个列分析器服务,这个服务是为企业数据分析创建的,但是可以与InfoSphere Information Server 的其他组件集成,因为它具有一般的 SOA 性质。
  • 执行服务,包括日志记录、调度、监视、报告、安全性和 Web 框架。
  • 元数据服务 让各个工具能够共享元数据,因此在一个 InfoSphere Information Server 组件中做的更改会立即在所有套件组件中反映出来。元数据服务与元数据存储库集成。元数 据服务还支持与外部工具交换元数据。
  • 共用服务层部署在符合 J2EE 规范的应用服务器上,比如 InfoSphere Information Server 中包含的 IBM WebSphere Application Server。
统一的并行处理引擎

InfoSphere Information Server 所做的许多工作在并行处理引擎中执行。这个引擎处理各种数据处理任务,比如为 IBM InfoSphere Information Analyzer 执行大型数据库分析、为 IBM InfoSphere QualityStage 执行数据清理和为 IBM InfoSphere DataStage 执行复杂的转换。设计并行处理引擎的目的是提供以下益处:

实现并行处理和数据流水线,从而在更短的时间内处理更多工作。

通过添加硬件(例如处理器或网格中的节点)扩展处理能力,而不需要修改数据集成设 计。

优化数据库、文件和查询处理,从而处理无法同时放在内存中的大型文件或大量小文件。

统一的元数据

InfoSphere Information Server 采用统一的元数据基础设施,这能够让业务和技术群体对元数据的理解保持一致。这个基础设施可以减少开发时间并提供持久的记录,可以增强对信息的信心。InfoSphere Information Server 的所有功能共享相同的元模型,这让不同职责的人员更容易协作。

共用的元数据存储库为所有 InfoSphere Information Server 套件组件提供持久存储。所有产品依靠这个存储库浏览、查询和更新元数据。存储库包含两类元数据:

  • 动态的 元数据包括设计时信息。
  • 运营性 元数据包括性能监视、审计和日志数据以及数据剖析示例数据。

因为所有套件组件共享这个存储库,InfoSphere DataStage 和 InfoSphere QualityStage 的用户可以立即使用 InfoSphere Information Analyzer 创建的剖析信息。

这个存储库是一个 J2EE 应用程序,它使用 IBM DB2®、Oracle 或 SQL Server 等标准的关系数据库(InfoSphere Information Server 提供的是 DB2)存储数据。这些数据库提供备份、管理、可伸缩性、并行访问、事务处理和并发访问。

共用的连接能力

InfoSphere Information Server 可以连接各种信息源,无论它们是结构化的、非结构化的、在大型机上还是应用程序。套件组件共享由元数据驱动的连接能力,可以跨功能重用连接对象。

连接器提供设计时元数据导入、数据浏览和取样、运行时动态元数据访问、错误处理以及功能强  大的高性能运行时数据访问。为打包的应用程序预先构建的接口(称为 pack)为 SAP、Siebel、Oracle 等提供适配器,支持与企业应用程序和相关联的报告和分析系统集成。

3.1 InfoSphere Information Server 中的并行处理

为了能够快速地向最终用户交付大量信息,组织需要可伸缩的数据集成架构,这个架构应该具有  以下特性:

  • 数据流水线,它可以在从输入到输出的整个过程中处理数据,不需要写磁盘,适用于批处 理和实时场景;
  • 动态的数据分区和重新分区;
  • 可伸缩的硬件,支持 Symmetric Multiprocessing (SMP)、集群、网格和 Massively Parallel Processing (MPP) 平台,不需要更改底层集成流程;
  • 支持先进的并行数据库,包括 IBM DB2、Netezza、Oracle 和 Teradata,可以采用并行和分区的配置;
  • 可扩展的框架,可以集成内部开发的软件和第三方软件。

这个架构必须能够随数据量和性能需求的增加而增长。最重要的是,这个架构不应该有任何上限,应该能够随硬件环境线性地增长。应该只需在硬件环境中添加处理器或节点即可增长。实际上,  在进行这些硬件升级时,应该不需要更改底层的数据集成应用程序。

IBM InfoSphere Information Server 利用流水线并行和分区并行满足所有这些需求,可以实现很高的吞吐量、性能和可扩展性。

并行处理基础

IBM InfoSphere Information Server 使用流水线并行和分区并行支持高性能、可伸缩的架构。

数据流水线

数据流水线  就是从源系统中取出记录,然后让它们依次经过数据流中定义的一系列处理功能(作业)。因为记录依次经过流水线,所以可以直接处理它们,而不需要把记录写到磁盘,见下图。

图 3:数据流水线

可以按块缓冲数据,这样当其他组件正在运行时每个流程都不会减慢。这种方式让上游和下游流  程可以同时运行,从而避免死锁并提高性能。

  • 如果没有数据流水线,就会发生以下问题:
  • 在流程之间必须把数据写到磁盘上,这会降低性能并增加存储需求和磁盘管理需求。
  • 开发人员必须管理组件之间的 I/O 处理。
  • 在处理大量数据时,这种方式不现实。
  • 随着磁盘使用量、管理和设计复杂性的增加,应用程序会越来越慢。
  • 必须完成每个流程,然后下游流程才能够开始,这会限制性能和对硬件资源的充分使用。
数据分区

数据分区  这种并行处理方式把记录划分为分区,即记录的子集。数据分区通常可以线性地提高应用程序性能。下图说明如何按客户的姓氏进行数据分区,然后让数据进入转换阶段。

图 4:数据分区

  1. 可伸缩的架构应该支持多种数据分区,包括以下类型:
  • 散列键(数据)值
  • 范围
  • 循环
  • 随机
  • 完整
  • 模数
  • 数据库分区

InfoSphere Information Server 根据 stage 需要的分区类型自动地执行数据分区。打包的工具通常没有这种功能,要求开发人员手工创建数据分区,因此每当管理员希望使用更多硬件处理能力时,  都需要更改应用程序或分区,这会增加成本和耗费时间。

在设计良好的可伸缩的架构中,开发人员不需要关心将运行的分区数量、增加分区数量的能力或  数据重新分区。

动态重新分区

动态的数据重新分区在流程之间根据下游流程的数据分区需求动态地执行重新分区,不需要把数  据写到磁盘。IBM Information Server 并行引擎管理流程之间用于动态重新分区的通信。

在图 4 和图 5 所示的示例中,按客户的姓氏进行数据分区,然后在整个数据流中维护数据分区。

图 5:数据分区和并行执行

如果没有分区和动态重新分区,开发人员必须执行以下步骤:

  • 根据当前的硬件配置,为每个数据分区创建单独的流。
  • 在流程之间把数据写到磁盘上。
  • 手工地重新分区。
  • 启动下一个流程。

应用程序会越来越慢,磁盘使用量和管理会增加,设计会越来越复杂。InfoSphere Information Server 的动态重新分区特性有助于解决这些问题。

InfoSphere Information Server 引擎的可伸缩性

IBM InfoSphere Information Server 采用可伸缩性很强的软件架构,可以提供很高的吞吐量和性能水平。为了实现最强的可伸缩性,集成软件必须可以在 Symmetric Multiprocessing (SMP) 和Massively Parallel Processing (MPP) 计算机系统上运行。但是,这还不够。如果数据集成平台无法充分使用集群或网格中的所有 MPP 计算机或系统节点,可伸缩性就无法最大化。

InfoSphere Information Server 组件充分利用 SMP、集群、网格和 MPP 环境以优化所有可用硬件资源的使用。例如,在使用 IBM InfoSphere DataStage 和 QualityStage Designer 以图形方式创建简单的顺序数据流时,不需要考虑底层硬件架构或处理器数量。一个单独的配置文件定义底层多处理  器计算系统的资源(物理和逻辑分区或节点、内存和磁盘)。

如图 6 所示,这种配置明确地把顺序数据流图的创建和应用程序的并行执行分隔开。这种隔离可以简化并行运行的可伸缩数据集成系统的开发。

图 6:简化硬件复杂性

  • 如果没有对可伸缩硬件环境的支持,会出现以下问题:
  • 处理更慢,因为无法充分利用硬件资源。
  • 应用程序设计和硬件配置无法隔离,对于每次硬件更改,都需要手工干预,还可能需要重 新设计。
  • 不可能随需扩展。

InfoSphere Information Server 利用强大的并行处理技术确保能够快速地处理大量信息。这种技术确保处理能力不会限制项目结果,让解决方案很容易扩展到新硬件,可以充分利用所有可用硬件的处理能力。

InfoSphere Information Server 对网格计算的支持

网格计算让硬件计算能力成为一种商品,这对于大型企业非常有吸引力。网格计算让您能够用非  常大的处理能力执行任务。

网格计算通过网络使用所有低成本的计算资源、处理器和内存,创建一个单一的系统映像。网格  计算软件提供可用计算资源列表和任务列表。当一台计算机可用时,网格软件根据适当的规则分配新  任务。网格可以由数千台计算机组成。网格计算软件允许用户指定其任务的处理器和内存需求,然后  在网络上寻找可用的计算机以满足这些需求,这可以平衡 IT 供应和需求。

IBM InfoSphere Information Server 的并行处理架构可以利用网格环境的计算能力,简化在网格环境中并行运行的可伸缩集成系统的开发。InfoSphere Information Server 预先打包的网格版本提供网格可伸缩性的快速实现。它包含集成的网格调度器和综合网格优化。这些功能有助于在网格中部署  集成逻辑,提供无限制的扩展能力,同时不影响作业设计。

3.2 InfoSphere Information Server 中的共享服务

IBM InfoSphere Information Server 提供丰富的管理和报告功能,使用共享的服务和一个 Web 应用程序为所有管理和报告任务提供共用的界面。

管理任务

IBM InfoSphere Information Server 提供的管理任务帮助您管理用户、角色、会话、安全性、日志和调度计划。Web 控制台提供基于共用框架的全局管理功能。

安全服务

安全服务支持基于角色的用户授权、访问控制服务和加密,可以满足许多私密性和安全性法规的  要求。控制台帮助管理员添加用户、组和角色,让他们能够在 InfoSphere Information Server 中浏览、创建、删除和更新操作。

目录服务充当中央集权,可以验证资源的身份并管理身份和身份之间的关系。目录可以基于InfoSphere Information Server 内部目录,也可以采用基于 LDAP、Microsoft Active Directory 或UNIX 本地操作系统的外部目录。

用户只使用一个凭证访问 InfoSphere Information Server 的所有组件。为每个用户存储一套凭证,从而提供对在域中注册的产品的单点登录。

InfoSphere Information Server 为与安全性相关的事件创建审计跟踪。这包括设置或更改与安全性相关的设置的所有活动以及所有用户身份验证和应用程序登录。可以根据审计需求配置要记录哪些  审计事件和包含多少信息。安全审计跟踪帮助探测对受控制的信息和应用程序的访问。对记录的审计  信息进行监视和分析可以改进对数据访问的控制,有助于防止对敏感数据或配置设置的恶意访问或无  意的未授权访问。对应用程序和用户访问(包括系统管理操作)的监视提供活动历史记录。这些信息  让您能够调整用户或组的安全角色,从而启用或禁止对应用程序特性的访问。这些信息还可以帮助检  查是否符合公司的安全策略。

审计服务在日志中记录以下活动的执行,从而为与安全性相关的事件创建审计跟踪:

  • 创建和删除用户和组
  • 给用户分配组或从组中删除用户
  • 更改用户密码
  • 更改分配给用户或组的安全角色
  • 更改项目和相关的项目级安全角色的用户和组权限
  • 更改引擎凭证映射
  • 用户登录
  • 用户注销
  • 会话终止
  • 会话超时
  • 更改审计日志记录配置设置

还可以配置审计日志文件的位置、大小、名称和数量以及要记录的事件。

日志服务

日志服务帮助您跨所有 InfoSphere Information Server 套件组件管理日志。Web 控制台提供查看日志和解决问题的集中位置。日志存储在共用的存储库中,每个 InfoSphere Information Server 套件组件定义相关的日志记录类别。

可以配置在存储库中保存哪些类别的日志消息。日志视图是管理员创建的用于帮助执行常见任务  的查询。例如,可能希望显示在前 24 小时内记录的所有 IBM InfoSphere Information Services Director 错误事件。


下图显示在 IBM InfoSphere Information Server Web 控制台中配置日志记录报告的界面。日志记录按照服务器组件进行组织。Web 控制台显示每个组件的默认和当前配置。

调度服务

调度服务帮助计划和跟踪日志记录和报告等活动,以及数据监视和趋势分析等套件组件任务。使  用 IBM InfoSphere Information Server 控制台维护调度计划,有助于定义调度计划,查看它们的状态、历史和预测,从系统中清除它们。

报告服务

报告服务管理 InfoSphere Information Server 报告功能的运行时间和其他方面。

可 以 为 IBM InfoSphere DataStage 、 IBM InfoSphere QualityStage 和 IBM InfoSphere Information  Analyzer  创建产品特有的报告,还可以为日志记录、监视、调度和安全服务创建跨产品的报告。

还可以访问、删除和清除调度的报告执行的结果内容。可以在 IBM InfoSphere Information Server  Web  控制台中设置和运行所有报告任务。可以查询和查看报告并安排报告以特定的时间和频率运行。您可以收藏报告,限制访问以提高安全性。

定义报告的方法是在一套模板中做出选择,然后设置模板的参数。可以指定历史策略,这决定如  何存档报告。另外,如果需要,可以设置报告过期期限。报告的格式可以是 DHTML、HTML、PDF、RTF、TXT、XLS 和 XML。

共用服务层的可伸缩性

IBM InfoSphere Information Server 采用可伸缩性很强的软件架构,可以提供很高的吞吐量和性能水平。

IBM InfoSphere Information Server 服务驻留在 IBM WebSphere Application Server Network Deployment (ND) 上,这是符合 J2EE 规范的应用服务器。可以通过实现 WebSphere Application Server 集群拓扑增加可以同时使用系统的用户数量。在 WebSphere Application Server 上下文中, “集群”这个词是指一起管理并参与工作负载管理的一组应用服务器。

支持下面的 WebSphere Application Server 集群拓扑:

  • 在同一台主机计算机上驻留多个应用服务器实例(垂直集群)。垂直集群让系统可以给集 群成员分配更多资源,这会提高性能。
  • 同一集群的成员驻留在多台主机计算机上(水平集群)。水平集群让 InfoSphere Information Server 服务层可以在几个节点上运行,但是仍然用客户机作为单一系统实例进行操作。这种配置可以最有效地使用硬件资源。另外,如果一个节点不可用了,它的工 作负载可以转移给集群中的其他节点,这会提高可用性。

要想实现 WebSphere Application Server 集群拓扑,还必须部署 Web 服务器或负载平衡器作为集群的前端。前端的 Web 服务器根据预先配置的策略把 Web 请求分派给集群成员。负载平衡器跨集群成员平衡 Web 请求。这两种解决方案都会提高性能和安全性,因为 Web 服务器和负载平衡器都保证集群只有惟一的 HTTP 入口点。

3.3 InfoSphere Information Server 中的综合元数据管理

用于数据剖析、数据建模、数据转换、数据质量控制、业务智能化的工具在数据集成中起重要作  用。IBM InfoSphere Information Server 的综合元数据管理功能让这些工具可以一起工作,实现企业的目标。

InfoSphere Information Server 中的元数据管理有许多优点:

  • 整个套件都共享来自单一元数据存储库的元数据,这会创建准确、一致且高效的流程。
  • 可以快速地识别对源系统的更改并在信息流中传播更改。
  • 可以识别下游的更改并使用它们修改源系统中的信息。
  • 可以跨部门和流程跟踪和分析数据流。
  • 在工具之间自动地共享元数据。
  • 词汇表定义为作业和报告中使用的元数据提供业务上下文。
  • 数据专员对模式和表等元数据资产负责,具有权威性。
  • 通过使用数据沿袭,可以把精力集中于从设计工具到业务智能化 (BI) 报告的整个集成路径。还可以通过向下钻取查看沿袭的任何元素。
  • 可以消除重复或多余的元数据,创建可由多个工具使用的可靠的单一版本。
管理元数据

IBM InfoSphere Information Server 的元数据存储库存储来自套件工具以及外部工具和数据库的元数据,可以在它们之间共享元数据。可以把元数据从各种源导入存储库中,通过多种方法导出元数  据,在设计、测试和生产存储库之间传输元数据资产。

元数据存储库

单一的元数据存储库能够让每个套件工具的用户对流经 InfoSphere Information Server 套件工具的数据的结构有一致的理解。由于使用共享的存储库,在一个套件工具中做的更改会立即自动地在整  个套件中呈现出来。

单一存储库确保可以使用从数据库或设计工具导入的数据库表,其用途包括:

  • 在 IBM InfoSphere Information Analyzer 中进行分析
  • 在 IBM InfoSphere FastTrack 中创建映射
  • 在 IBM InfoSphere DataStage 和 QualityStage 作业中创建表定义

还可以在 IBM InfoSphere Business Glossary 中给这个表分配一个词汇和专员。IBM InfoSphere Metadata  Workbench  中的数据沿袭报告也可以包含这个表,把它链接到原来的数据库设计、使用它的作业以及基于它的业务智能化 (BI) 报告。

元数据存储库共享、存储和协调各类元数据:

业务元数据

为信息技术资产提供业务上下文,在其他 IT 应用程序创建和管理的工件中添加业务含义。业务元数据包括词汇表词汇、负责的专员和示例。

运营性元数据

描述 IBM InfoSphere DataStage 和 QualityStage 作业的运行情况,包括写和读的行数以及受影响的数据库表或数据文件。可以使用 IBM InfoSphere Metadata Workbench 创建组合了设计信息和运营性信息的数据沿袭报告。

技术性元数据

提供关于以下类型的资产的详细信息:

  • 物理数据资源,包括主机计算机、数据库和数据文件及其内容。可以从设计工具、数据库 或 BI 工具导入这些资产。
  • 剖析、质量和 ETL 流程,项目和用户,包括在 InfoSphere DataStage 和 QualityStage
  • 中创建的和通过 IBM InfoSphere Discovery 分析的作业和项目。
  • 通过 MetaBrokers 导入的和从 IBM Cognos® 和 BusinessObjects 等 BI 工具桥接的 BI 报告和模型元数据。

元数据存储库是一个 IBM WebSphere J2EE 应用程序。它使用标准的关系数据库技术(比如 IBM DB2 或 Oracle)存储数据。这些数据库提供备份、管理、可伸缩性、事务处理和并发访问。

导入和导出元数据

InfoSphere Information Server 提供了许多把元数据资产导入元数据存储库的方法。一些方法还能够把存储库中的元数据导出到其他工具、文件或数据库中。

连接器、运算符和插件

InfoSphere DataStage 和 QualityStage 使用连接器、操作器和插件连接各种数据库以提取、转换和装载数据。InfoSphere Information Analyzer 和 InfoSphere FastTrack 使用连接器访问数据库。在所有情况下,关于物理数据资源的元数据(包括主机、数据库、模式、表和列)都存储在元数据存储  库中,可供其他套件工具使用。

MetaBrokers 和网桥

可以通过 MetaBrokers 和桥把元数据从外部应用程序、数据库和文件(包括设计工具和 BI 工 具)导入到元数据存储库中。MetaBrokers 是使用 IBM MetaBroker 技术的桥。一些 MetaBrokers 和桥还可以导出元数据。可以导入许多类型的元数据,包括:

  • 主机、数据库、模式、存储过程、数据库表、数据库列和外键
  • 数据文件、数据文件结构、数据文件字段
  • BI 报告、模型和它们包含的资产
  • IBM InfoSphere Discovery 产生的分析信息
  • IBM InfoSphere Data Architect 产生的物理和命名模型
  • 在 InfoSphere Business Glossary 和其他套件工具中使用的词汇表类别和词汇
  • 被指定为元数据存储库中资产的专员的用户和组
交换 XML 和 CSV 文件

几个套件工具为导入和导出包含各种元数据的 XML 和逗号分隔值 (CSV) 文件提供了界面:

  • 可以使用 InfoSphere Metadata Workbench 导入扩展映射文档和扩展数据源,它们捕捉来自没有把元数据保存在元数据存储库中的工具、脚本和其他程序的流程和数据源信息。
  • 可以使用 InfoSphere FastTrack 导入和导出采用 CSV 格式的映射规则。
  • 可以使用 InfoSphere Business Glossary 导入词汇表内容,包括类别、词汇以及与其他资产的关系。
浏览、分析和删除存储库中的元数据

每个套件工具的用户都可以浏览和选择此工具使用的元数据资产类型。例如,InfoSphere DataStage 和 QualityStage 的用户可以选择作业以及作业使用的表定义和 stage。一些工具提供更广泛的元数据存储库内容视图:

  • InfoSphere Metadata Workbench 的用户可以浏览和查询存储库中所有类型的资产,运行数据沿袭和影响分析报告。
  • InfoSphere Business Glossary 的用户可以搜索和浏览许多类型的资产,可以给资产分配词汇或指定专员。
  • 通过使用 InfoSphere Information Server 的存储库管理功能,可以浏览存储库中的所有物理数据资源和 BI 资产,删除重复或不必要的资产。
在元数据存储库之间转移资产

开发并测试作业和流程之后,可以把它们转移到生产环境中。可以使用 istool 命令行把资产从一个 InfoSphere Information Server 存储库转移到另一个中。例如,可以把资产从开发环境转移到测试环境中,再从测试环境转移到生产环境中。

可以使用命令行转移多种类型的资产和它们之间的关系:

  • 来自 InfoSphere DataStage 和 QualityStage 的作业和项目;
  • 来自 IBM InfoSphere Business Glossary 的类别、词汇和专员;
  • 来自 IBM InfoSphere Information Analyzer 的分析摘要、项目和指标;
  • 来自 IBM InfoSphere FastTrack 的映射规则;
  • 物理数据资源,包括数据库、模式、表、列和数据文件的元数据;
  • BI 元数据,包括 BI 报告、BI 模型和它们包含的资产;
  • InfoSphere Information Server 用户、角色和报告。

3.4 InfoSphere Information Server 中的高可用性

IBM InfoSphere Information Server 包含提高系统可用性的特性。

高可用的  系统可以提高从用户的角度来说系统服务可用的时间百分比。为了提高可用性,需要实现引入冗余的拓扑和技术。目标是减少或消除单一故障点  (SPOF):一旦发生故障,就会导致系统的关键方面停止操作的元素。

IBM 为每个 IBM InfoSphere Information Server 层提供不同的高可用性解决方案。这种安排让您可以为每个主要组件选用最好的方法。每个解决方案都允许设计多种不同的高可用配置,从相当简单  的设置直到复杂的配置。大多数解决方案都通过硬件和软件组件的集群提供冗余。

一般来说,希望实现的总体可用性水平越高,必须设计和维护的系统就越复杂。另外,可用性更  高的系统通常需要更多的硬件。由于这些原因,要认真考虑在系统的每个软件层中需要的可用性水   平。开发系统和生产系统所需的可用性水平可能不一样。

提高可用性的元数据存储库选项

为了提高元数据存储库或 IBM InfoSphere Information Analyzer 数据库的可用性,可以实现数据库集群技术。

为了解决可用性问题,可以创建集群的元数据存储库数据库配置。还可以创建集群的 IBM InfoSphere Information Analyzer 分析数据库配置。

在这个上下文中,“集群”是指一组相互连接并作为单一系统一起工作的物理计算机或逻辑分区

(节点)。可以通过在集群中添加节点来增加处理能力,不需要中断服务。

提高可用性的共用服务层选项

为了提高共用服务层的可用性,可以实现 IBM WebSphere Application Server 集群。为了提高共用服务层的可用性,可以实现其成员驻留在多台主机计算机上的 WebSphere

Application  Server  集群(水平集群)。如果一个节点不可用了,它的工作负载可以转移给集群中的其他节点。

设置备用的 Web 服务器或负载平衡器,以便在主服务器发生故障时接管工作。

提高可用性的 InfoSphere Information Server 引擎选项

为了提高 IBM InfoSphere Information Server 引擎的可用性,可以创建主动-被动配置。

为了设置健壮的引擎层,可以使用 Tivoli® System Administration for Multiplatforms 等高可用性(HA)   软件创建主动-被动配置。这个解决方案由至少两台服务器组成,它们共享共用的存储资源,比如存储区域网络  (SAN)。在运行时,只有其中一台服务器是主动的,它运行引擎进程。HA  软件在服务器之间维护心跳信号,这种信号表明主动服务器运行正常。如果心跳信号停止,HA   软件就让被动服务器之一接管工作。在被动服务器初始化期间,引擎不可用。

对于这种配置,在安装时为系统创建浮动的 IP 地址和虚拟主机名。这些信息与主动服务器相关联。所有客户机程序使用这个地址或主机名连接系统。如果主动服务器发生故障,这些信息自动地改  为与被动服务器相关联。客户机程序不需要连接另一个地址。

4、InfoSphere DataStage

在数据集成项目实施需求中,涉及到大量和复杂的数据转换处理,InfoSphere DataStage 是

Information Server for Data Integration 中一个重要的软件模块。

数据转换和转移流程选择源数据并把它们转换和映射为目标系统需要的格式。这个流程让数据与  目标环境中的业务、领域和完整性规则以及其他数据保持一致。转换可以采用以下形式:

  • 聚合——把数据值整合或汇总为单一值。例如,把每日销售数据聚合到周级。
  • 基本转换——从源到目标列正确地转换和映射数据类型。
  • 清理——纠正源数据中不一致和不正常的数据。
  • 派生——使用某种算法转换来自多个源的数据。
  • 丰富——把来自内部或外部源的数据组合起来,为数据提供更多含义。
  • 规范化——减少多余和重复的数据。
  • 主元变换——把一个输入流中的记录转换为数据仓库或数据集市中适当表中的许多记录。
  • 排序——根据数字或字符串值排列数据。

IBM InfoSphere DataStage 支持收集、转换和分发大量数据,无论数据结构是简单还是非常复杂。InfoSphere DataStage 可以管理随时到达的数据和定期或按时间表接收的数据。InfoSphere DataStage 可以帮助公司解决许多与大量数据的高性能处理相关的业务问题。

InfoSphere  DataStage  可以利用多处理器硬件平台的并行处理功能扩展处理能力,满足不断增长的数据量需求、严格的实时需求和批处理时间窗。InfoSphere DataStage 提供丰富的特性,包括:

  • 允许在操作性、事务性和分析性目标之间转移和转换数据。
  • 让公司能够决定最好的数据集成方式(批处理或实时)以满足自己的业务需求。
  • 节省设计、开发和部署的时间并提高一致性。

InfoSphere DataStage 为集成数据并把数据转换为信息提供完整全面的平台。InfoSphere DataStage 提供四个核心功能,它们都是在任何企业数据集成项目中成功地转换数据所必需的:

  • 能够连接各种数据源,包括大型机、遗留和企业应用程序、数据库(Oracle、DB2、Informix、Sybase、Microsoft SQL Server 和 ODBC)和文件集(SAS 数据集、XML、平面文件、Cobol 复合文件)。
  • 提供预先构建的全面的函数库,包含 300 多个函数。这可以减少开发时间和学习难度, 提高准确性和可靠性。提供可靠的文档,可以降低维护成本。
  • 通过使用并行的高性能处理架构,让硬件投资产生最大的吞吐量,在最小的批处理时间窗 内完成大量任务,尽可能提高基于事件的连续转换的数据处理量。
  • 提供用于开发、部署和维护的企业级功能以及高可用性平台支持,这会降低管理和实现风 险,与手工编程相比更早地交付结果。

4.1 InfoSphere DataStage 架构

InfoSphere  DataStage  由基于客户端的设计、管理和操作工具组成,它们通过共用服务层访问一套基于服务器的数据集成功能。所有 InfoSphere DataStage 客户端都连接服务器,这让开发人员可以相互协作。下图显示组成 InfoSphere DataStage 用户界面层的客户端。

InfoSphere DataStage 架构包含以下组件:

共用的用户界面

InfoSphere DataStage 用户界面由以下客户端应用程序组成:

IBM InfoSphere DataStage and QualityStage Designer

用于创建 InfoSphere DataStage 应用程序(称为作业)的图形用户界面。因为转换也是数据质量控制的固有部分,所以 IBM InfoSphere DataStage and QualityStage Designer 同时作为InfoSphere DataStage 和 IBM InfoSphere QualityStage 的设计界面。

每个作业指定数据源、所需的转换和数据的目的地。通过编译作业创建可执行程序,InfoSphere DataStage and QualityStage Designer 调度这些程序在 IBM InfoSphere Information Server 引擎中运行。Designer   客户端把开发元数据写到动态存储库中,同时把部署所需的编译的执行数据写到元数据存储库中。

InfoSphere DataStage and QualityStage Director

用于检验、调度、运行和监视 IBM InfoSphere DataStage 序列的图形用户界面。Director 客户端显示操作存储库中关于作业的数据,并把项目元数据发送到元数据存储库以控制作业流。

IBM InfoSphere DataStage and QualityStage Administrator

用于管理任务的图形用户界面,比如设置 IBM InfoSphere Information Server 用户、日志记录、创建和移动项目以及设置清除记录的条件。

共用的服务

InfoSphere  DataStage  的多个服务提供配置系统所需的灵活性,可以支持不断变化的用户环境和分层架构。共用服务在架构的许多部分之间提供灵活的可配置的互连。

  • 元数据服务,比如影响分析和搜索。
  • 支持所有 InfoSphere DataStage 函数的执行服务。
  • 支持 InfoSphere DataStage 任务的开发和维护的设计服务。
共用的存储库

共用存储库包含支持 InfoSphere DataStage 所需的以下类型的元数据:

  • 项目元数据——所有项目级元数据组件组织在文件夹中,包括作业、表定义、内置的
  • stage、可重用的子组件和例程。
  • 操作性元数据——存储库包含描述集成流程运行历史的操作性元数据,包括作业是成功还是 失败、使用的参数以及这些事件的日期和时间。
  • 设计元数据——存储库包含 InfoSphere DataStage and QualityStage Designer 和 IBM InfoSphere Information Analyzer 创建的设计时元数据。
共用的并行处理引擎

引擎运行可执行的作业,作业可按各种设置提取、转换和装载数据。引擎使用并行处理和流水线  快速处理大量工作。

共用的连接器

连接器可以连接许多种外部资源,还可以从处理引擎访问共用存储库。InfoSphere Information Server 支持的任何数据源都可以作为作业的输入或输出。

4.2 InfoSphere DataStage 任务

IBM InfoSphere DataStage 的关键元素是作业 stage。作业定义转换步骤的序列,stage 是组成作业的各个步骤。InfoSphere DataStage 的用途包括设计、执行、管理、部署和控制作业。

InfoSphere DataStage 元素

IBM InfoSphere DataStage 的元素包括项目、作业、stage、链接、容器和表定义。

项目

InfoSphere DataStage 是使用 IBM InfoSphere DataStage and QualityStage Administrator 创建的基于项目的开发环境。在安装时或者在启动 InfoSphere DataStage 客户端工具(Administrator 除外)时,可以创建项目。每个项目包含所有 InfoSphere DataStage 元素,包括作业和 stage、表定义、链接和容器。

作业和 stage

作业定义步骤序列,步骤序列决定 IBM InfoSphere Information Server 如何执行工作。定义作业之后,编译并在并行处理引擎中运行它们。引擎根据作业的设计执行各种功能,比如连接、提取、清  理、转换和装载。

组成作业的各个步骤称为 stage。InfoSphere Information Server 提供几十个预先构建的 stage, 它们用于执行最常见的数据集成任务,比如排序、合并、联结、转换、查找和聚合。stage     包含用于高性能地读取和装载关系数据库的强大组件,包括并行关系数据库。

stage 通常提供大多数企业数据集成应用程序所需的应用程序逻辑的 80% 到 90%。InfoSphere Information Server 还为构建和集成定制的 stage 提供多个 stage 类型:

  • 包装的 stage——让您能够并行地运行现有的顺序程序
  • 构建 stage——让您能够编写 C 表达式,通过它们自动地生成并行的定制 stage
  • 定制的 stage——为开发复杂的可扩展的 stage 提供完整的 C++ API

下图显示一个简单的作业,它由数据源、一个 Transformer(转换)stage 和目标数据库组成。stage 之间的链接代表进入或离开 stage 的数据流。

InfoSphere DataStage 提供许多 stage。下表说明一些有代表性的示例。

图标

Stage

说明

Transformer stage

对输入数据集执行必需的转换,然后把数据传递给另一个执行进一步处理或把数据写到目标数据库或文件的 stage。

Sort stage

执行复杂的高速排序操作。

Aggregator stage

对来自单一输入数据集的数据行进行分组,然后计算每个组的总值或聚合值。

Complex Sequential File stage

从包含复杂数据结构(比如数组或组)的平面文件提取数据。

DB2 stage

对 IBM DB2 读或写数据。

每个 stage 的属性指定如何执行操作或处理数据。属性可能包括文件名(对于 Sequential File stage)、排序列、要执行的转换和数据库表名(对于 DB2 stage)。InfoSphere DataStage 的插件架构让 InfoSphere 软件开发人员和厂商很容易添加 stage,比如添加连接更多数据源的能力。

表定义

表定义是要处理的数据的记录布局(即模式)和其他属性。表定义包含列名、数据类型、长度以  及键和 null 值等其他列属性。可以使用 Designer 客户端从数据库、COBOL copybook 和其他源导入表定义。然后,在链接中使用这些表定义描述 stage 之间流动的数据。

链接和容器

在 InfoSphere DataStage 中,链接连接作业中的各个 stage,描述数据和数据定义从数据源经过执行处理的 stage 到数据目标的流动。输入链接通常把数据传输到 stage。输出链接把经过 stage 处理的数据传输出来。

容器包含用户定义的 stage 组或可以重用的链接。容器让共享工作流更方便。有两种容器:

  • 共享的——可重用的作业元素,通常由许多 stage 和链接组成。
  • 本地的——在一个作业内创建且只能由此作业使用的元素。在作业图窗口的选项卡式页面 中编辑本地容器,可以用它“清理”作业图,隔离流的一些区域。

4.3 InfoSphere DataStage and QualityStage Designer

IBM InfoSphere DataStage and QualityStage Designer 帮助创建、管理和设计作业。还可以使用

Designer 客户端定义表和访问元数据服务。

表定义

可以从许多源导入、创建和编辑表定义(例如,表定义的来源之一是 IBM InfoSphere Information Analyzer 产生的元数据)。在编辑或查看表时,Table Definitions 窗口打开,见下图。

这个窗口包含以下选项卡:

  1. General——包含数据源和描述信息。
  2. Columns——包含关于列的信息,包括键值、SQL 类型和长度。
  3. Format——描述对顺序文件读写数据时使用的数据格式。
  4. Relationships——提供表的外键信息。
  5. Parallel——显示可以在并行作业中使用的表定义的扩展属性。
  6. Layout——显示表中列定义的模式格式。
  7. Locator——让您能够查看和编辑与表定义相关联的数据资源定位符。数据资源定位符描 述真实的对象。
  8. NLS(如果安装了)——显示用于表定义的当前字符集映射。
  9. Analytical information——显示 InfoSphere Information Analyzer 生成的元数据。
访问元数据服务

InfoSphere DataStage and QualityStage Designer 通过访问元数据存储库即时地访问关于集成项目和企业数据的当前元数据。可以使用 Designer 客户端访问由元数据桥或 InfoSphere Information Analyzer 生成的数据。下面的服务向设计者提供元数据访问能力:

  • 简单和高级的搜索服务——让您能够在存储库中搜索对象
  • 使用位置或影响分析服务——显示“used by”和“depends on”关系

InfoSphere DataStage and QualityStage Designer 中的一个选项在 InfoSphere DataStage 上下文中显示作业或表定义之间的差异。下图显示文本报告和与 Designer  客户端中相关编辑器的链接。还可以查看共享的容器和例程等作业元素的差异。可以把报告保存为 XML 文件。

创建作业

在使用 Designer 客户端时,选择要创建的作业的类型和创建方式,见下图。

作业类型包括并行、大型机和序列作业。作业模板提供可以定制的预先定义的作业属性,帮助您  快速构建作业。作业模板还为作业和作业设计人员之间的共性提供基础。

使用设计画布窗口和工具面板设计、编辑和保存作业。下图显示最基本的 InfoSphere DataStage作业,其中包含三个 stage:

  • 数据源(输入)stage
  • 转换(处理)stage
  • 目标(输出)stage

根据公司的数据集成需求,IBM InfoSphere DataStage 作业可以非常复杂。下图给出一个比较复杂的作业示例。

设计作业

使用 Designer 客户端设计集成流程,然后添加每个 stage 的详细信息。这种方法有助于构建并跨作业重用组件。Designer   客户端可以大大减少需要的编程工作量,即使是定义最困难最复杂的集成流程。

在作业设计中,每个数据源和每个处理步骤都是一个 stage。链接 stage 以显示数据的流动。把stage 从工具面板拖放到画布上。这个面板包含 stage 和组的图标,可以通过定制 stage 组组织stage,见下图。

放置 stage 之后,根据数据流动的方向把它们链接在一起。例如,在上面的作业中添加了两个链接:

  • 数据源(Sequential File stage)和 Transformer stage 之间的链接
  • Transformer stage 和 Oracle 目标 stage 之间的链接

可以从 stage 属性编辑器装载每个链接的表定义,或者从存储库中选择定义并把它们拖到链接上。

stage 属性

作业中每个 stage 的属性指定 stage 如何执行或处理数据。stage 属性包括文件名(对于Sequential File stage)、排序列和升序/降序次序(对于 Sort stage)、数据库表名(对于数据库stage)等等。每个 stage 类型使用一个图形化编辑器。

Complex Flat File stage

Complex Flat File (CFF) stage 可以读和写包含多种记录格式的数据文件。下图显示一个三条记录联结。这个  stage  支持固定长度和可变长度的记录,可以把一个逻辑事务中不同记录类型的数据联结成单一数据记录。例如,可以联结客户、订单和单位数据。

CFF stage 和 Slowly Changing Dimension stage 提供一个 Fast Path 概念,它可以提高易用性并加快实现。Fast Path 带领您通过屏幕和表格设置处理 stage 所需的 stage 属性。把鼠标停留在每个选项卡左下角的 "i" 上就可以访问帮助。

Transformer stage

Transformer  stage  可以有一个主输入链接、多个参考输入链接和多个输出链接。把来自主要数据输入源的链接指定为主输入链接。使用参考链接支持查找等操作,例如提供可能影响更改数据的方式  但不提供要更改的实际数据的信息。输入列被显示在左边,输出列则显示在右边。上面的面板显示列  和派生信息。下面的面板显示列元数据。

一些数据可能必须按原样通过 Transformer stage,但是来自一些输入列的数据很可能必须先进行转换。可以通过输入表达式或选择要应用于数据的转换指定这种操作(称为派生 )。IBM InfoSphere DataStage    有许多可以在派生中使用的内置函数。还可以定义定制的转换函数,它们存储在存储库中以供重用。

还可以为整个输出链接指定约束。约束是指定条件的表达式,数据必须满足条件才能够传递给输  出链接。

Slowly Changing Dimension stage

分析系统的一种典型设计基于一个维度数据库,数据库包含一个中心事实表和围绕它的比较小的  维表,每个维表包含单一主键。这种设计也称为星形模式。

在捕捉客户信息、销售数据和其他重要业务信息的事务性和操作性系统中常常可以找到星形模式  的数据。事务性系统和分析性系统之间的主要差异之一是,分析性系统需要准确地记录过去的数据。  分析性系统常常必须探测趋势,从而让管理人员能够做出战略性决策。例如,对于许多产品,销售跟  踪数据集市中的产品定义的维可能随时间变化,但是这个维的变化通常很慢。一个重大的转换和转移  难题是,如何让系统能够跟踪这些维随时间的变化。在许多情况下,这些维会偶尔发生变化。

下图显示一个典型的主键,产品销售库存单位 (PRODSKU)。

Slowly Changing Dimension (SCD) stage 在星形数据库结构的上下文中处理维表的源数据。这个

stage   支持重写现有的维(称为一类更新)、更新同时保留行(称为二类更新)或这两种更新的组合。为了准备装载数据,SCD stage 对星形模式中每个有变化的维执行以下流程:

  • 使用来自源的业务键在每个维表中查找代理键。通常会找到维行。
  • 如果没有找到维行,必须创建一个包含代理键的行。
  • 如果找到了维行,但是必须更新它(一类),那么必须执行更新。
  • 为了保留历史(二类),添加一个新行并对原来的行做标记。在源数据中添加代理键并删 除非事实数据。

在二类更新中,在维表中插入一个包含新代理主键的新行以捕捉变化。描述一个维的所有行都包  含唯地标识最近实例和历史维的属性。下图说明如何重新定义产品维,从而包含要进入维表的数据,  还包含代理键、过期日期和货币标志。

最后,把新记录写到维表中(包括所有代理键),从而反映产品维随时间的变化。尽管产品销售  库存单位没有变,但是数据库结构让用户能够区分产品当前版本和以前版本的销售数据。

Dynamic Relational stage

IBM InfoSphere DataStage 允许连接几乎任何数据库管理系统,而 Dynamic Relational stage 允许在运行时而不是设计时指定绑定类型(例如 Oracle、IBM DB2 或 SQL Server)。Dynamic Relational stage 对数据库读或写数据。下图显示数据库 stage 的一般性信息,包括数据库类型、名称以及用于连接的用户 ID 和密码。可以对密码进行加密。

SQL 构建器

SQL 构建器为需要使用 SQL 表达式定义数据库源的开发人员提供图形界面,可以用它构建简单或复杂的 SQL 查询语句。SQL 构建器支持 DB2、Oracle、SQL Server、Teradata 和 ODBC 数据库。尽管可以使用 ODBC 构建适用于多种数据库的 SQL,但是针对特定数据库的解析器可以帮助您利用数据库特有的功能。下图显示 SQL 构建器如何指导开发人员创建形式良好的 SQL 查询。

作业序列

IBM InfoSphere DataStage 提供一个图形化的作业序列器,可以在其中指定要运行的作业序列。序列还可以包含控制信息。例如,序列可以指定一些操作依赖于序列中的某个作业是否成功。定义作  业序列之后,可以使用 Director 客户端、命令行或 API 调度和运行序列。序列在存储库和 Director 客户端中作为作业出现。

设计作业序列与设计作业相似。在 InfoSphere DataStage and QualityStage Designer 中创建作业序列并从工具面板添加活动(而不是 stage)。然后,用触发器(而不是链接)连接活动以定义控 制流。可以在触发器表达式中测试活动的属性,并把它们传递给序列中后续的其他活动。活动还可以  有参数,通过它们提供作业参数和例程参数。作业序列有属性,还可以有参数,可以把它们传递给序  列中的活动。下图显示一个典型的作业序列,它由到达的文件触发。这个作业序列还包含异常处理、循环和流控制。

作业序列执行以下类型的活动:

  • Job——指定 IBM InfoSphere DataStage 作业。
  • Routine——指定例程。
  • ExecCommand——指定要运行的操作系统命令。
  • E-mail notification——指定在序列的这个位置上必须使用 Simple Mail Transfer Protocol (SMTP) 发送电子邮件通知。这种方法常常用于异常和错误处理。
  • Wait-for-file——等待指定的文件出现或消失。等待文件出现或消失指定的一段时间之后,这  个活动可以向序列发送停止消息。
  • Run-activity-on-exception——在一个作业序列中只能有一个 run-activity-on-exception 活动。当序列中的作业运行失败时,运行这个活动。(其他异常情况由触发器处理。)
  • Checkpoint(作业序列的重新启动选项)——作业序列的检查点属性支持在失败的位置上重新启动序列。
  • Looping stages——StartLoop 和 EndLoop 活动让作业序列更灵活,提供更强的控制能力。
  • User expressions and variables——让您能够定义和设置变量。可以在作业序列中使用这些变量计算表达式。
  • Abort-activity-on-exception——当出现问题时停止作业序列。
作业管理

Designer   客户端管理项目数据,允许查看并编辑存储在元数据存储库中的元素。这个工具支持在不同的 IBM InfoSphere DataStage 系统之间导入和导出元素,以及与其他工具交换元数据。可以为元数据存储库中的元素生成报告。

Designer 客户端提供以下功能:

  • 导入和导出 DSX 和 XML 文件
  • EE 配置文件编辑器
  • 表定义导入
  • Message Handler Manager
  • MetaBroker 导入和导出
  • 导入 Web 服务定义
  • 导入 IMS™ 定义
  • JCL 模板编辑器

下图显示用于导入表定义的 Designer 客户端窗口。

导入和导出作业

InfoSphere DataStage and QualityStage Designer 允许在 IBM InfoSphere DataStage 开发、测试和生产环境之间导入和导出作业的组件。可以导入和导出存储库中的任何组件,包括作业。

导出功能还可以生成描述存储库中对象的 XML 文档。可以使用 Web 浏览器查看这些文档。

Designer 客户端还包含从 XML 文档导入 InfoSphere DataStage 组件的功能。

4.4 InfoSphere DataStage and QualityStage Director

IBM InfoSphere DataStage and QualityStage Director 检验、运行、调度和监视由 IBM InfoSphere Information Server 引擎运行的作业。

运行作业
  • 用 InfoSphere DataStage and QualityStage Director 运行作业包括以下任务:
  • 设置作业选项——每次检验、运行或调度作业时,用户可以通过设置选项更改参数、覆盖 用于行处理的默认限制、分配调用 ID 和设置跟踪选项。
  • 检验作业——在第一次运行作业之前,或者在对作业参数做重大更改之后,可以检验作 业。
  • 启动、停止或重新设置作业运行——可以立即运行作业,也可以安排在以后运行。
  • 创建多次作业调用——可以创建一个 InfoSphere DataStage 作业的多次调用,每次调用使用不同的参数处理不同的数据集。
监视作业

Director 客户端包含一个监视工具,它显示处理信息。如下图所示,Monitor Job Status 窗口显示以下信息:

  • 执行处理的 stage 的名称
  • 每个 stage 的状态
  • 处理的行数
  • 完成每个 stage 花费的时间
  • 每秒行数

在作业启动之前、作业运行期间和作业完成之后都可以使用监视窗口。可以用多个监视窗口同时  监视多个作业。

检查作业日志文件

当检验、运行或重新设置作业时,会更新作业日志文件。日志文件对于解决检验失败或非正常终  止的作业的问题非常有价值。

每个日志文件描述作业最后一次(或以前)运行期间发生的事件。下图显示日志的图形化视图。  最近或当前运行的信息以黑色显示,以前运行的信息以深蓝色显示,其他信息以浅蓝色显示。当发生  以下事件时在日志中写入条目:

  • 作业或批处理启动或完成
  • stage 启动或完成
  • 输出被拒绝的行
  • 生成警告或错误

当从日志中选择一个事件时,可以在 Event Detail 窗口中查看完整的消息,见下图。这个窗口包含作业汇总信息和事件详细信息。

可以使用这个窗口显示相关的作业。还可以按时间和事件类型(比如警告)筛选日志中的条目。

命令行界面

可以使用命令行和 API 启动、停止和监视作业。Command stage 是一个主动式 stage,它可以在InfoSphere DataStage 数据流中的任何地方运行各种外部命令,包括服务器引擎命令、程序和作业。

可以使用操作系统的本机命令窗口(shell)运行任何命令并指定命令参数。示例包括 Perl 脚本、DOS 批处理文件、UNIX 脚本和其他非交互式命令行可执行程序。还可以通过命令行、API 和 Web 服务接口以文本或 XML 形式返回作业监视信息。

4.5 InfoSphere DataStage and QualityStage Administrator

IBM InfoSphere DataStage and QualityStage Administrator 提供管理一般性任务和与项目相关的任务(服务器超时和 NLS 映射)的工具。

Administrator 客户端支持以下类型的任务:

  • 添加新项目
  • 删除项目
  • 设置项目级属性
  • 设置和更改 NLS 映射和位置
  • 设置权限和用户类别,从而只允许得到授权的用户编辑项目中的组件或运行作业
  • 设置大型机和并行作业的属性和默认值

突出显示一个项目并单击 Properties 按钮,就会显示此项目的详细信息:

4.6 InfoSphere DataStage Balanced Optimizer

传统的数据集成平台提供非常健壮的连接功能,可以访问企业应用程序、大型机数据存储库和平  面文件等非关系数据源。数据集成平台的关键组件是提取、转换和装载 (ETL) 引擎。ETL 使用高性能可伸缩的集成架构从一个或多个源提取数据,然后执行数据转换和丰富,最后把数据装载进一个或多  个目标中。这种方法利用高性能可伸缩的引擎,还可以减少对数据源和目标的影响。

与 ETL 方法相反,提取、装载和转换 (ELT) 平台依靠底层数据库提供连接能力和数据转换。通过利用关系数据库管理系统 (RDBMS) 引擎提供可伸缩性,数据转换可以高效地处理大量数据,这会在引擎级优化磁盘 I/O 以提高吞吐量。但是,RDBMS 无法优化对驻留在数据库之外的数据的复杂处理。这要求用外部引擎进行处理,这会抵消用数据库引擎从其他数据源提取或复制数据的优势。

真正完整的数据集成平台不仅提供数据复制和更改数据捕捉功能,还可以检查企业应用程序、自  动地生成最高效的数据提取方法并管理元数据。实际上,用户不但需要 ETL 和 ELT,还需要转换、提取、装载和转换 (TELT) 以及转换、提取、转换、装载和转换 (TETLT)。为了实现这个目标,用户可以指定在源和/或目标以及 InfoSphere DataStage 引擎中执行处理。

这就是 IBM InfoSphere DataStage Balanced Optimization 的用途。为了让客户能够更灵活地处理数据转换,并尽可能利用和保护他们对并行数据库系统已作投资,IBM 扩展了 IBM InfoSphere Information Server 的功能,支持 ETL、ELT、TELT 和 TETLT 数据转换方法。

通过使用 InfoSphere DataStage Balanced Optimization,用户可以继续使用当前的面向流的InfoSphere DataStage 约定表述集成流程的逻辑,然后自动或半自动地优化他们的设计,从而增强ELT 和结构化查询语言 (SQL) 下推的性能。InfoSphere DataStage Balanced Optimization 不要求用户通过手工重新编写查询和处理实现更好的灵活性和吞吐量;用户可以享用 ETL、ELT 甚至 TETLT 的扩展功能,同时不必牺牲 IBM InfoSphere Information Server 平台的优势。

InfoSphere DataStage Balanced Optimization 向 DataStage 用户提供强大的新功能和益处:

  • 1、对于所有数据集成流程,发挥 DataStage 开发环境的灵活性和易用性
  • 用户只需使用 DataStage 构建数据集成应用程序一次;
  • 在 DataStage 中维护元数据和沿袭。
  • 2、发挥所有系统的优势:数据库外的可伸缩数据集成和数据库内的可伸缩数据集成
  • 用户可以指定哪些转换应该在 DataStage 引擎中执行,哪些转换应该在并行关系数据库中执行;
  • 在最合理的位置运行数据集成流程。

在以下场景中使用 InfoSphere DataStage Balanced Optimization 可以改进作业的性能:

  • 转换作业以使用大批量临时表——这会改进处理大量数据时的性能。可以转换其模式 属性包含大批量预备的任何目标连接器,从而把大量数据插入目标数据库中的临时预 备表中。通过添加后期处理 SQL 把数据从预备表转移到真正的目标表中。如果希望根据真正的目标表在另一个目标数据库实例中创建预备表,那么可以在 InfoSphere DataStage Balanced Optimization 工具中的一个属性中指定此实例。
  • 在数据目标中执行处理、联结和查找——把尽可能多的作业工作放到目标数据库中执 行,包括利用目标数据库中已经存在的查找或联结源表。还可以实现把大量数据插入 预备表中。如果放到目标数据库中执行的工作涉及数据缩减(例如,作业包含Aggregator stage 或带约束表达式的 Transformer stage),那么也可以选择在数据源中执行数据缩减。
  • 在数据源中执行数据缩减——如果作业中有 Aggregator stage、包含会排除许多行的约束的 Transformer stage 或 Sort stage,这种优化会改进性能。这种优化把尽可能多的处理放在数据源连接器中执行。
  • 在数据源中执行联结和查找——这种优化把涉及相同数据库服务器中的数据的 Join 和 Lookup stage 放在源数据库中执行。这种优化还可以避免 Join stage 经常隐式执行的额外排序。
  • 在源数据库、Information Server 引擎和目标数据库之间平衡工作量——这种优化把尽可能多的工作放在目标数据库中执行,然后把剩下的工作尽可能放在源数据库中执 行,最后余下的工作留在作业中。
  • 把所有工作放在数据库中执行——如果作业使用的所有数据都在相同的数据库上,而 且作业中的所有处理都可以在目标数据库中执行,那么可以避免所有数据库 I/O,让所有处理作为 SQL 在目标数据库中执行。

如果希望把优化的范围限制为只包含作业设计的一部分,可以在 where optimization should stop 属性中设置一个 stage 的名称。超过这个属性 c 中指定的 stage 的处理都不会放到源或目标数据库中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深海科技服务

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值