ETL包括数据抽取(Extract)、数据转换(Transform)以及数据加载(Load)3个阶段。
DS(Ascential DataStage)是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。
sequential File(文件组件):
1、Format:"Record level" 可以设置读取的长度是固定的,Record length = fixed;
"Field defaults" 中可以设置 分隔符Delimiter string ='|' ; 设置空值 Null field value =‘’
2、Columns:输出字段长度可以在 “String type”设置Field width=(隐藏的,需要在columns 列表字段中选中-->右击,才能看到)
Surrogate Key Generator(创建主键组件):
1、Mapping:GenerateKey(主键字段) | 主键字段
2、Columns:主键类型必须是“Integer”
3、后面必须接两个Transformer stage组件。第一个Transformer stage 创建主键值,且把主键字段类型值"Integer" 转换成"Decimal"; 第二个Transformer stage 把主键字段类型值"Decimal" 转换成"BigInt";
4、、Transformer stage 创建主键值: (SecondsSinceFromTimestamp(CurrentTimestamp(),"2020-07-30 00:00:00")*10000000+主键字段)*10+9 | 主键字段 ---------- 从9开始,每个间隔是10(可以自己随意设置的)