ETL
面试题总汇
一、分析
1
.什么是逻辑数据映射?它对
ETL
项目组的作用是什么?
What is a logical data mapping and what does it mean to the ETL team?
答:
逻辑数据映射(
Logical Data Map
)用来描述源系统的数据定义、目标数据仓库的模型以及
将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,
通常以表格或
Excel
的格式保存如下的信息:
目标表名:
目标列名:
目标表类型:注明是事实表、维度表或支架维度表。
SCD
类型:对于维度表而言。三种
SCD
(
Slowly Changing Dimension
)技术
SCD1
直接修改原维表信息,不保存任何维历史信息。
SCD2
创建新的记录而不删除或修改原有维信息。
可通过为每条记录设定过期时间、
生效时
间两个字段来区分各历史记录和当前记录(历史记录的过期时间均早于当前记录的生效时
间)。
SCD3
在维表中定义历史信息字段,只保存有限的历史信息(此技术很少应用)
源数据库名:源数据库的实例名,或者连接字符串。
源表名:
源列名:
转换方法:需要对源数据做的操作,如
Sum(amount)
等。
逻辑数据映射应该贯穿数据迁移项目的始终,在其中说明了数据迁移中的
ETL
策略。在进
行物理数据映射前进行逻辑数据映射对
ETL
项目组是重要的,它起着元数据的作用。项目
中最好选择能生成逻辑数据映射的数据迁移工具。
-----------------------------
补充:
逻辑数据映射分为两种
:
1:
模型映射
:
从源模型到
DW
目标模型之间的映射类型有: