ETL考试当天学习总结:

ETL考试当天学习总结:
昨天自己考的并不理想,选择题错了九个,其中有一半时oracle的,说明了一件事,你并没有去认真学,最起码这段时间
没有认真学,既然发现了这个弊端 该怎么做呢 脚落地面的踏踏实实的,保持谦虚保持谨慎
现在有如下内容:是考试前记错或者没有记住甚至不知道的
以下为一点都不会,也没蒙对的:
1.union是主动组件
2.ETL工具:
informatica、datasatge、kettle
3.数据仓库建设中一般先建设原始凭证层
4.oracle 没有for循环
有的是for loop 、 while loop、 loop 这是oracle的知识点
5.在PL/SQL代码块的异常处理
块中铺货所有异常的关键词是OTHERS 这是oracle的知识点
6.数据抽取阶段的主要任务是
连接并访问原系统的数据OBDC
变化数据捕获
抽取数据到数据准备区
为后续处理做数据准备
7.元数据主要包含以下几个方面的内容:
(最不该错的 ,中午还手写了一遍)
对数据库方面的描述,包括各种对象和对象属性的定义
对实体的属性和实体之间关系的描述
对数据库中各种物理表、表之间的搞关系和属性的描述
数据流动的描述,各种维度的描述
对ETL过程中产生的映射关系、转换规则、数据的流动进行描述
8.SQL语句中修改表结构的命令是ALTER TABLE
9.数据的完整性约束是对数据描述的某种约束条件,属于关系型数据模型完整星星约束的是
实体完整性
参照完整性
用户定义完整性
10.is_date(invoice_date,‘yyyy-mm-dd’)
注:匹配返回1 不匹配返回0 null 返回null
11.优化数据库的方法:
建立索引
过滤条件后将重复次数高的放在前面
有group by时 尽量用where 先做筛选 having 只是做剔除不需要的分组工作
需要统计行数时,使用count(1) 而不是count(*)
尽量减少嵌套查询

以下为真的不会或真的记忆模糊但是蒙对的:
12.数据缺陷包含以下几种情况:
数据重复、数据缺失、数据错误、数据范围混淆
13.在oracle中获取前十条数据的关键字是rownum
14.下列属于元数据的是:
Mapping的名字
Session名字
数据库表里的明细数据
Workflow的名字
15.数据质量衡量标准:
定义的数据是否和实际数值相同
指标数据是否符合业务规则
数据是否和业务源系统中的信息保持一致
数据是否违背自然规律或者不符合常理
16.ETL转换过程可能包括以下几个方面:
对空值的处理:如果在转换过程中捕获到某些字段存在空值,在进行加载时需要将空值替换成某一数据
或者直接进行加载,不做任何转换
对数据格式的规范化:根据业务数据源中在那个各个字段的数据类型,进行数据格式的规范和统一。
例如,统一数值类型转换成字符串类型
对缺失数据的替换,根据业务需求对缺失数据进行替换
根据业务规则对数据进行过滤
17.数据加载策略
时间戳的加载方式
全表对比的加载方式
通过读取日志表进行加载的方式
全表删除后再进行加载的方式
18.ETL的框架结构包括以下几个方面:
ETL调度
抽取策略
转换策略
加载策略
19.影响ETL数据质量的关键因素包括以下几种情况:
可能会有一部分数据因为客观或者人为的原因导致数据格式混乱
源系统设计存在不合理性
在开发过程中,因为开发人员的错误或者设计人员对业务规则描述的问题,同样会导致数据质量问题出现
20.元数据的作用:
帮助用户理解数据仓库系统中的数据
用于数据仓库系统的集成
保证数据的质量
提高数据仓库系统的灵活性
21.属于元数据的有:
Mapping的名字,Session的名字,Workflow的名字
22.数据仓库特性:
面向主题,时变性,继承性,稳定性
23.DDL
:CREATE SELECT DROP
24.DCL:
GRANT REVOKE COMMIT ROLLBACK
25.数据更新策略:
DD_INSERT DD_UPDATE DD_DELETE DD_REJECT
记住了但是需要重复重复的:
26.informatica客户端与服务端通信需要配置:
域名、网关主机、网关端口
27.数据抽取时需要考虑很多因素,
包括抽取方式、抽取时间、抽取周期
在抽取之前确定业务系统的数据情况

28.统一调度是ETL中较为重要的功能。通常有以下两种调度方式:
自动调度方式和手动调度方式
29.Mapplet/Reusable Transformation及区别
mapplet 可以包含多个组件 reusable transformation 只能有一个组件
30.ETL及其目的:
etl即抽取、转换、装载的过程;
目的:将企业中分散的、凌乱的、标准不统一的数据整合到一起,用于支持管理决策
31.简述informatica更新策略
DD_INSERT DD_UPDATE DD_DELETE DD_REJECT
32.简述增量抽取条件并详细论述informatica是如何实现增量抽取的
条件:1.数据量较大 2.随着时间的推移数据不断增加
1).第一个增量抽取模型string最好用
SETVARIABLE( d a t e , t o c h a r ( S E S S S T A R T T I M E , ′ y y y y − m m − d d h h 24 : m i : s s ′ ) ) 2 ) . 第 二 个 增 量 抽 取 模 型 d a t e 类 型 S E T V A R I A B L E ( date,to_char(SESSSTARTTIME,'yyyy-mm-dd hh24:mi:ss')) 2).第二个增量抽取模型date类型 SETVARIABLE( date,tochar(SESSSTARTTIME,yyyymmddhh24:mi:ss))2.dateSETVARIABLE(date,SESSSTARTTIME)
3).第三种增量抽取模型,
按最大值 SETMAXVARIABLE(hiredate)
下次对大于上次的最大值的进行抽取
SETMAXVARIABLE($$date,EMPLOYEE_ID)
4).增量抽取第四个模型,
对当天的数据进行抽取 trunc(sysdate)
5).还有第五种增量抽取变形在前四种基础上进行,为原表添加额外字段,将需要修改的行,此行该列值设为最新时间,用前四种方法进行筛选更新hiredate>$date or 新字段 >$date
33.主被动组件及informatica数据流规则:
主动组件:数据流经记录数发生改变(union)
被动组件:数据流经记录数不发生改变
数据流规则:主动组件不允许分叉、被动组件允许分叉
34.存储过程和ETL区别:
存储过程和ETL工具都是实现ETL过程的重要步骤。
ETL工具:时数据处理可视化,比较容易理解和操作;
减少数据库的压力,把数据处理的压力转移到ETL服务器上;
方便部署和调度
缺点:对于复杂逻辑的开发有些难度;维护及修改开销较大
存储过程:后期方便维护和修改;对于复杂逻辑的开发较容易实现
35.简述informatica上笛卡尔积和自连接时怎样实现的:
笛卡尔积时用f(x)组件在两表分别添加一个字段 列值均相同 用joiner组件对新添字段进行关联
自连接用两个排序组件对需要关联的字段进行排序 然后连接到joiner组件 需要对joiner组件的input sort打对勾
36.行列转换
行转列 需要用分组组件 对需要专列的行进行筛选过滤到N个新字段,然后输出
列转行 需要用规范器组件 和f(x)组件 然后输出
37.SQ和joiner组件及union组件异同及使用条件
SQ只能关联同构数据源 可以关联两个以上
joiner可以关联异构数据源 每次只能关联两个表 如果需要关联N个表 需要N-1个组件
SQ只能合并同构数据源
union可以合并异构数据源
38.infa优化
抽取数据时之抽取需要字段,尽量减少输入输出端口
尽早过滤,尽早去重
尽量避免类型转换
优化设计,减少不必要组件的使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值