DataStage
文章平均质量分 57
小_强
10年+数据架构师。专注于数据仓库、大数据、数据分析领域。
展开
-
DataStage:DataStage Job优化指导原则(不定时更新中)
使用DataStage也有一段时间了,在实际工作中也经常从同事处零星的获取一些优化技巧,网上也能找到一些Job优化的小技巧点。但总觉得没有一篇相对有水平且完整的从方法论的高度阐述Job优化的文章。本文根据本人长期的DataStage开发实际经验,从Job优化的方法论的指导原则的角度,阐述一些自己的愚见。希望能对奋斗在DataStage Job开发一线的朋友们有一定的实际帮助。另外由于实际能力所限,原创 2013-01-26 00:38:11 · 2941 阅读 · 0 评论 -
DataStage优化之一:STAGE的顺序优化
场景描述: 对于如上图所示的ETL处理过程:源数据需要与STG_A和STG_B两个STAGE读出的数据关联(使用JOIN STAGE,且假设STG_B的关联字段来源于STG_SRC源表)。各STAGE实际需要处理的时间如下: STG_SRC 5MIN STG_A 10MIN STG_B 6MIN原创 2013-05-07 00:05:30 · 1147 阅读 · 0 评论 -
DataStage:DataStage8.5-分区方法(Partition)
1、自动(Auto)分区 自动分区是开发作业时最普遍的分区方式。DataStage将根据本身stage的类型和前一个stage所做的操作,决定一个最优的分区方案。一般情况下,对最初的输入数据一般采用循环分区(Round Robin)方法,而对于作业中除第一个Stage之外的其他Stage,一般就都采用Same分区了。2、完全(Entire)分区 对于同一个s原创 2013-02-27 21:32:08 · 1580 阅读 · 0 评论 -
DataStage:Partition、Node和PipeLine
Partition:分区 DataStage会把读入的数据分成若干份(具体多少份由configuration file的Node总数决定),每一份称为一个Partition。使用时要特别注意聚合函数及rownum的使用,因为聚合函数及rownum在各个Partition上是独立的,互不影响。如若服务器配置的Partition数量为2,则SQL:select * from t_ta原创 2013-02-20 20:37:46 · 1332 阅读 · 0 评论 -
DataStage:JOB Status Code
Status Code Description0 Job is Actually Running1 Job Finished with no Warnings2 Job Finished with Warnings3原创 2013-02-20 21:10:24 · 1198 阅读 · 0 评论 -
DataStage开发常见问题之二:DS中比较运算符对NULL值的处理
DataStage作为一款极易上手的ETL工具,在国内占据着大部分的市场。但即使DataStage操作起来已经相当直观,且日志提示信息也已比较明了,但实际开发过程中仍然会遇到这样那样的问题。 为了提醒大家,特别是DataStage新手在学习实践过程中少走一些弯路。特根据本人在DataStage开发过程中的实际经验,总结了一些DataStage开发时需要注意的细节,仅供参考。下面有原创 2013-01-22 00:41:28 · 2410 阅读 · 0 评论 -
DataStage开发常见问题之一:Failed a keylookup for record
DataStage作为一款极易上手的ETL工具,在国内占据着大部分的市场。但即使DataStage操作起来已经相当直观,且日志提示信息也已比较明了,但实际开发过程中仍然会遇到这样那样的问题。 为了提醒大家,特别是DataStage新手在学习实践过程中少走一些弯路。特根据本人在DataStage开发过程中的实际经验,总结了一些DataStage开发时需要注意的细节,仅供参考。下面有原创 2013-01-19 23:08:50 · 1308 阅读 · 0 评论 -
DataStage:DataStage Parallel Job VS Server Job
本人英文水平一般,先收着以后再翻译吧。1) The basic difference between server and parallel jobs is the degree of parallelismServer job stages do not have in built partitoning and parallelism mechanism for extracting转载 2013-02-01 23:19:22 · 1231 阅读 · 0 评论 -
DataStage开发常见问题之三:使用Lookup Stage KEY值左关联不上时对右表字段的处理
DataStage作为一款极易上手的ETL工具,在国内占据着大部分的市场。但即使DataStage操作起来已经相当直观,且日志提示信息也已比较明了,但实际开发过程中仍然会遇到这样那样的问题。 为了提醒大家,特别是DataStage新手在学习实践过程中少走一些弯路。特根据本人在DataStage开发过程中的实际经验,总结了一些DataStage开发时需要注意的细节,仅供参考。下面有原创 2013-01-26 23:30:59 · 2494 阅读 · 1 评论