2个Server:
Informatica Repository Server:资料库Server,管理ETL过程中产生的元数据
Informatica Server:ETL引擎
5个Client:
PowerCenter Designer:设计开发环境,定义源及目标数据结构;设计转换规则,生成ETL映射
Workflow Manager:合理的实现复杂的ETL工作流,基于时间,事件的作业调度
Workflow Monitor:监控Workflow和Session运行情况,生成日志和报告
Repository Manager:资料库管理,包括安全性管理等
Repository Server Administrator Console:资料库的建立与维护
Informatica PowerCenter的功能列表:
异构数据源,异构目标
多种缓慢变化维模版
Mapping/Session/Workflow/Server级参数化,支持参数文件
局部变量,前后记录比较
条件汇总
异构数据源关联
行/列互换
静态/动态/条件Lookup
ETL事务处理
自定义
Pre SQL和Post SQL
数据源为文件列表
断点续传
多目标表约束装载
错误数量控制
FTP源和FTP目标
ETL任务分区
增量汇总
测试装载
Bulk Loading
External Loading
多层 workflow 嵌套
复杂组件Mapping逻辑
调用存储过程/外部过程
Custom Transformation
可视化Debugger
强大的函数支持,功能丰富的转换语言
功能丰富的Workflow 控制
任务串行,并行控制
基于时间,事件和指示文件触发任务
Workflow中调用操作系统外部命令
Workflow中调用Email
多ETL Server协同工作
Informatica PowerCenter其他附加功能
Metadata Exchange
以XML的方式进行导入/导出元数据,和Informatica Repository同步,进行元数据交换
Team-based Development
团队开发,对象版本控制,将check in, check out,并且可以以对象为单位部署,查询对象信息。
Partitioning
针对每一个session ,缺省的只有一个进程实现ETL操作,当选择了partition之后,用户可以指定partition的个数和类型,从而实现多进程并发执行,ETL的性能就会显著提高。
Server Grid
PowerCenter以一种灵活的方式,提供将异类服务器聚合在一起分布工作和负载均衡,通过不同的Server分配workflows和sessions.
优点是:
均衡加载任务
更容易规划资源
提供不同层次的控制
session 级
workflow级
server级
Real-Time
实时的数据整合平台
双向的,实时数据集成事务数据或时间切片数据
实时的,永远开通的会话,可以连续集成来自 /消息队列的数据流
对于需要立即处理的,实施的流式传递数据进行零延时数据传输
Data profiling
收集数据源的相关信息,并根据规则形成分析报告,从而达到数据探查的目的。
Data Quality
根据Data profiling的探查结果,进行相应的清洗,合并,重构等操作,包括以下几类:
数据内容错误
缺失数据
无效数据
冗余数据
数据结构问题
无效键值
数据矛盾
同一数据元素多种格式
同一代码值不同意思
同一意思多种代码值
效率驱动。管理变化。确保准确
数据集成服务
以批处理,实时和变化数据捕获进行数据迁移
数据检查
数据清洗
数据转换
数据聚合
转换服务
专注数据质量转换
强大的转换库
预定义的映射和向导
内置的源分析
实时和批处理数据映射的图形界面
设置和改变数据聚合
可扩展转换
连通性服务
本地支持关系型的,主机和IBM iSeries(AS/400)数据库
本地支持EAI和Messaging
支持形成的集成标准,比如XML, Web Services(WSDL, SOAP, UDDI)
连通性SDK
安全服务
基于角色和权限的安全
LDAP鉴定
为其他鉴定的安全
系统访问跟踪
以RSA编密码方式安全传输数据
积极的元数据
专一的,开放的资料库
基于WEB的元数据分析
可重复使用的元数据对象
总是保持自己最新的文档
碰撞分析,数据血统分析,依赖影响分析
可扩展的元数据对象
双向元数据交换
全球和本地元数据管理
可扩展平台
开放,面向服务的架构
客户端,资料库和server SDKs和APIs
支持工业标准,比如Java
商业智能界面和数据模型工具
提供丰富的SDKs和APIs