ETL考试当天学习总结：

最新推荐文章于 2022-03-28 14:36:09 发布

PleaseWild

最新推荐文章于 2022-03-28 14:36:09 发布

阅读量940

点赞数 3

文章标签：数据分析

本文链接：https://blog.csdn.net/S_i_t_s/article/details/108048032

版权

ETL考试当天学习总结：
昨天自己考的并不理想，选择题错了九个，其中有一半时oracle的，说明了一件事，你并没有去认真学，最起码这段时间
没有认真学，既然发现了这个弊端该怎么做呢脚落地面的踏踏实实的，保持谦虚保持谨慎
现在有如下内容：是考试前记错或者没有记住甚至不知道的
以下为一点都不会，也没蒙对的：
1.union是主动组件
2.ETL工具：
informatica、datasatge、kettle
3.数据仓库建设中一般先建设原始凭证层
4.oracle 没有for循环
有的是for loop 、 while loop、 loop 这是oracle的知识点
5.在PL/SQL代码块的异常处理
块中铺货所有异常的关键词是OTHERS 这是oracle的知识点
6.数据抽取阶段的主要任务是
连接并访问原系统的数据OBDC
变化数据捕获
抽取数据到数据准备区
为后续处理做数据准备
7.元数据主要包含以下几个方面的内容：
(最不该错的，中午还手写了一遍)
对数据库方面的描述，包括各种对象和对象属性的定义
对实体的属性和实体之间关系的描述
对数据库中各种物理表、表之间的搞关系和属性的描述
数据流动的描述，各种维度的描述
对ETL过程中产生的映射关系、转换规则、数据的流动进行描述
8.SQL语句中修改表结构的命令是ALTER TABLE
9.数据的完整性约束是对数据描述的某种约束条件，属于关系型数据模型完整星星约束的是
实体完整性
参照完整性
用户定义完整性
10.is_date(invoice_date,‘yyyy-mm-dd’)
注：匹配返回1 不匹配返回0 null 返回null
11.优化数据库的方法：
建立索引
过滤条件后将重复次数高的放在前面
有group by时尽量用where 先做筛选 having 只是做剔除不需要的分组工作
需要统计行数时，使用count(1) 而不是count(*)
尽量减少嵌套查询

以下为真的不会或真的记忆模糊但是蒙对的：
12.数据缺陷包含以下几种情况：
数据重复、数据缺失、数据错误、数据范围混淆
13.在oracle中获取前十条数据的关键字是rownum
14.下列属于元数据的是：
Mapping的名字
Session名字
数据库表里的明细数据
Workflow的名字
15.数据质量衡量标准：
定义的数据是否和实际数值相同
指标数据是否符合业务规则
数据是否和业务源系统中的信息保持一致
数据是否违背自然规律或者不符合常理
16.ETL转换过程可能包括以下几个方面：
对空值的处理：如果在转换过程中捕获到某些字段存在空值，在进行加载时需要将空值替换成某一数据
或者直接进行加载，不做任何转换
对数据格式的规范化：根据业务数据源中在那个各个字段的数据类型，进行数据格式的规范和统一。
例如，统一数值类型转换成字符串类型
对缺失数据的替换，根据业务需求对缺失数据进行替换
根据业务规则对数据进行过滤
17.数据加载策略
时间戳的加载方式
全表对比的加载方式
通过读取日志表进行加载的方式
全表删除后再进行加载的方式
18.ETL的框架结构包括以下几个方面：
ETL调度
抽取策略
转换策略
加载策略
19.影响ETL数据质量的关键因素包括以下几种情况:
可能会有一部分数据因为客观或者人为的原因导致数据格式混乱
源系统设计存在不合理性
在开发过程中，因为开发人员的错误或者设计人员对业务规则描述的问题，同样会导致数据质量问题出现
20.元数据的作用：
帮助用户理解数据仓库系统中的数据
用于数据仓库系统的集成
保证数据的质量
提高数据仓库系统的灵活性
21.属于元数据的有：
Mapping的名字，Session的名字，Workflow的名字
22.数据仓库特性：
面向主题，时变性，继承性，稳定性
23.DDL
:CREATE SELECT DROP
24.DCL:
GRANT REVOKE COMMIT ROLLBACK
25.数据更新策略：
DD_INSERT DD_UPDATE DD_DELETE DD_REJECT
记住了但是需要重复重复的：
26.informatica客户端与服务端通信需要配置：
域名、网关主机、网关端口
27.数据抽取时需要考虑很多因素，
包括抽取方式、抽取时间、抽取周期
在抽取之前确定业务系统的数据情况

28.统一调度是ETL中较为重要的功能。通常有以下两种调度方式：
自动调度方式和手动调度方式
29.Mapplet/Reusable Transformation及区别
mapplet 可以包含多个组件 reusable transformation 只能有一个组件
30.ETL及其目的:
etl即抽取、转换、装载的过程；
目的：将企业中分散的、凌乱的、标准不统一的数据整合到一起，用于支持管理决策
31.简述informatica更新策略
DD_INSERT DD_UPDATE DD_DELETE DD_REJECT
32.简述增量抽取条件并详细论述informatica是如何实现增量抽取的
条件：1.数据量较大 2.随着时间的推移数据不断增加
1）.第一个增量抽取模型string最好用
SETVARIABLE( $date,to_char(SESSSTARTTIME,'yyyy-mm-dd hh24:mi:ss')) 2）.第二个增量抽取模型date类型 SETVARIABLE($ date,SESSSTARTTIME)
3）.第三种增量抽取模型，
按最大值 SETMAXVARIABLE（hiredate）
下次对大于上次的最大值的进行抽取
SETMAXVARIABLE($$date,EMPLOYEE_ID)
4）.增量抽取第四个模型，
对当天的数据进行抽取 trunc（sysdate）
5）.还有第五种增量抽取变形在前四种基础上进行，为原表添加额外字段，将需要修改的行，此行该列值设为最新时间，用前四种方法进行筛选更新hiredate>＄date or 新字段 >＄date
33.主被动组件及informatica数据流规则：
主动组件：数据流经记录数发生改变(union)
被动组件：数据流经记录数不发生改变
数据流规则：主动组件不允许分叉、被动组件允许分叉
34.存储过程和ETL区别：
存储过程和ETL工具都是实现ETL过程的重要步骤。
ETL工具：时数据处理可视化，比较容易理解和操作；
减少数据库的压力，把数据处理的压力转移到ETL服务器上；
方便部署和调度
缺点：对于复杂逻辑的开发有些难度；维护及修改开销较大
存储过程：后期方便维护和修改；对于复杂逻辑的开发较容易实现
35.简述informatica上笛卡尔积和自连接时怎样实现的：
笛卡尔积时用f(x)组件在两表分别添加一个字段列值均相同用joiner组件对新添字段进行关联
自连接用两个排序组件对需要关联的字段进行排序然后连接到joiner组件需要对joiner组件的input sort打对勾
36.行列转换
行转列需要用分组组件对需要专列的行进行筛选过滤到N个新字段，然后输出
列转行需要用规范器组件和f(x)组件然后输出
37.SQ和joiner组件及union组件异同及使用条件
SQ只能关联同构数据源可以关联两个以上
joiner可以关联异构数据源每次只能关联两个表如果需要关联N个表需要N-1个组件
SQ只能合并同构数据源
union可以合并异构数据源
38.infa优化
抽取数据时之抽取需要字段，尽量减少输入输出端口
尽早过滤，尽早去重
尽量避免类型转换
优化设计，减少不必要组件的使用