informatica 厂商培训资料

1、informatica中domain与node的理解:

   domain 类似于局域网,node就是局域网中的节点或者计算机。

   node应与repository在数据库中存储在不同的scheme中,此处node指informatica操作的内容。

2、informatica中Repository Service 与 Intergration Service

   IS:工作引擎;RS:管理引擎,管理repository;

   IS与RS工作流程为:客户端发请求到IS,IS调用RS完成各种ETL操作,其中,RS工作过程中会访问repository进行元数据信息、T规则等访问,并将task,workflow的结果状态等存储到repository。

   一般一个IS对应一个node,当一个一个IS要对应多个node时,涉及grid,将多个node放在一个grid下,一个grid对应一个IS。

3、server与client端driver配置

   一般配置driver时,尽可能选择native dirver,native dirver的性能高于ODBC,但是ODBC的兼容性和适用性高。

   server 端driver:用于ETL过程中实际存取读写数据;

   client 端driver:用于导入source/target 表,即元数据。

4、informatica中数据处理方式为并行处理,即管道式处理。

5、分区

   分区使处理方式由单线程变成多线程,一个连接变成多个连接。

   分区后,当使用汇总、关联等组件时informatica可自动保证数据结果的正确性。

   在汇总、关联之前,若数据已进行排序,且组件中已排序属性已勾选,则数据为流式通过;否则,需数据全量到达然后进行处理。

6、集群:

   informatica既可支持单机,也可建立集群环境。而且,集群环境可以异构,即不限定OS,version等;

   在集群环境中,任务可通过以下三种方式分发:

   第一种:轮询;

   第二种:动态控制,需在config文件中进行配置;

   第三种:建立task与node的映射表(,然后在config文件中进行配置该映射表?)。

   无论采取哪种方式,都可以保证task的执行顺序,因为task的执行顺序是由repository中workflow表(表名貌似是OPB_WORKFLOW)存储。

7、增值服务组件:HA,可自动接管坏点

   启用方式为:运行workflow时以auto recovery方式运行;

   要求:需在磁盘中建立共享存储,并配置主从节点。

8、规则文档映射

   informatica中mapping可导出成excel文件,并包含各种transformation rule。

   使用方式:在客户端repository组件中,选择要导出的mapping,右键菜单 export metadata。

9、批量开发

   利用visio组件,可实现批量ETL过程开发,尤其适用于平推。(具体转化方式不详)

10、CDC 增量采集

   主要适用于可做增量log的DB,如 oracle。先capture,然后apply。(具体抓取方式需查询相关文档)

11、下推优化:

   指导方针:平衡DB sever 与informatica server的负载。

   原理:将下推部分转化成sql,在DB中实现。可实现source下推和target下推。

   使用方法:session中mapping 菜单下有pushdown 选项。

12、数据校验插件 data validation

   可创建valid rule,代替手工校验。

13、前瞻监控 rulepoint

14、调优:

    1、减少port field

    2、减少过程中数据量,尽早filter

    3、避免不必要排序,sort is expensive

    4、expression 中符号比表达式性能高

       expression 中有变量端口,可生成中间量,重复使用

       expression中尽量少嵌套,可用高级函数代替

    5、尽量避免类型转换

    6、high precision is expensive

15、read write transformation 的统计信息除了在workflow monitor中,session log中也有

16、session中各参数

    DTM memory:session占用的全部内存(内存块个数)

    buffer block size:内存块大小(mapping中所有source的数据量的整数倍)

    line sequential buffer length:当源是文件时,文件记录长度

    max memory:最大内存块数

17、session 调优:

    尽量关闭日志;

    目标加载前利用pre sql 删除索引约束,加载完成后利用post sql 重建索引约束;

    提交间隔可稍微设置大一些;

    关闭统计信息收集;

    设置各种参数;

    数据装载方式尽量选择loader

18、temp文件与cache文件的区别:

    具体参见各组件使用的文件夹配置名称,如sort组件使用temp文件夹,join组件使用cache文件夹。

转载于:https://www.cnblogs.com/tdskee/p/5787175.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值