数据仓库面试题（三）

依邻依伴

于 2024-06-28 09:32:44 发布

阅读量602

点赞数 25

分类专栏：大数据面试题文章标签：数据仓库 oracle 数据库

本文链接：https://blog.csdn.net/jianing1018/article/details/139972938

版权

大数据面试题专栏收录该内容

56 篇文章 2 订阅

订阅专栏

1. 简述什么是ER模型？

ER模型（Entity-Relationship Model），即实体-关系模型，是一种用于表示实体之间关系的图形化数据库设计方法。它由Peter Chen在1976年提出，广泛应用于数据库设计、系统分析和软件工程领域。ER模型的主要组成部分包括：

实体（Entity）：
- 实体是现实世界中的一个对象或概念，它可以是具体的（如人、车辆）或抽象的（如组织、事件）。在ER图中，实体通常用矩形表示。
属性（Attribute）：
- 属性是实体所具有的性质或特征，如人的名字、年龄等。在ER图中，属性通常用椭圆形表示，并用线条连接到它们所属的实体。
关系（Relationship）：
- 关系是实体之间的联系或相互作用，如“学生”和“课程”之间的“选修”关系。在ER图中，关系通常用菱形表示，并通过线条将相关的实体连接起来。
角色和约束：
- 在某些关系中，实体可能扮演特定的角色，并受到某些约束条件的限制。这些角色和约束可以附加在关系描述中。
基数（Cardinality）：
- 基数描述了实体之间关系的数量特征，如“一个学生可以选修多个课程，而一个课程可以被多个学生选修”，这表示了“一对多”的关系。
存在依赖（Existence Dependency）：
- 某些实体的存在可能依赖于其他实体，如“订单明细”的存在依赖于“订单”。

ER模型的层次：

概念模型：用于描述现实世界的概念结构，独立于具体的数据库实现。
逻辑模型：将概念模型转化为特定数据库系统的数据模型，如关系模型。
物理模型：涉及数据库的存储结构、访问方法等物理层面的实现细节。

ER模型的优点包括：

提供了一种直观的方式来理解和设计数据结构。
支持复杂关系的表示。
易于与非技术利益相关者沟通。

ER模型的缺点包括：

在处理大型和复杂的数据模型时可能变得难以管理和理解。
对于某些类型的数据模型，如层次结构或网络结构，ER模型可能不是最优的表示方法。

ER模型是数据库设计的重要工具，它帮助设计者理解和组织数据，确保数据库的一致性和完整性。

2. 简述OLAP、OLTP解释？

OLAP（在线分析处理）和OLTP（在线事务处理）是数据库管理系统中的两种不同的数据处理模式，它们在设计、使用场景和优化方面有着本质的区别：

OLAP（在线分析处理）：
- 目的：OLAP系统主要用于支持复杂的分析和报告任务，帮助用户从不同角度分析数据，发现数据的趋势和模式。
- 数据结构：通常使用多维数据模型，如数据立方体，可以快速进行数据聚合和切片。
- 查询特点：查询通常比较复杂，涉及大量的聚合操作，如求和、平均等，并且查询结果往往是不可预测的。
- 数据更新：数据更新频率较低，主要关注数据的读取操作。
- 使用场景：适用于决策支持系统、数据挖掘和商业智能等场景。
OLTP（在线事务处理）：
- 目的：OLTP系统主要用于处理日常的事务性操作，如订单处理、库存更新等。
- 数据结构：通常使用规范化的数据模型，以减少数据冗余和保持数据一致性。
- 查询特点：查询通常比较简单，涉及单个或少数几个表的查询，并且查询结果往往是可预测的。
- 数据更新：数据更新频率较高，需要快速响应和高并发处理能力。
- 使用场景：适用于银行交易、电子商务和订单管理系统等场景。

区别：

数据模型：OLAP通常使用多维数据模型，而OLTP使用规范化的数据模型。
查询复杂性：OLAP的查询通常更复杂，涉及多个表的连接和聚合操作；OLTP的查询通常更简单，涉及单个表或少数几个表。
数据更新频率：OLAP系统的数据更新频率较低，而OLTP系统需要处理大量的数据更新和插入操作。
性能优化：OLAP系统优化查询性能，特别是聚合和多维分析；OLTP系统优化事务处理性能，包括事务的一致性、隔离性和持久性。
用户类型：OLAP系统通常由分析师和决策者使用，而OLTP系统由日常业务操作人员使用。

总的来说，OLAP和OLTP代表了数据处理的两个极端：OLAP关注复杂的数据分析和决策支持，OLTP关注快速的事务处理和数据一致性。在实际应用中，组织可能需要同时使用这两种系统来满足不同的业务需求。

3. 简述三范式是什么，举些例子？

数据库的范式（Normal Form，简称NF）是一组规则，用来评估数据库表结构的正规化程度。正规化的目的在于减少数据冗余和提高数据完整性。以下是三个基本的范式：

第一范式（1NF）：
- 要求数据库表的每一列都是不可分割的基本数据项，即表中的所有字段都应该只包含原子性的数据，没有重复的列组。
- 例子：如果一个员工表中有一个字段是“姓名”，那么这个字段不能包含多个名字，如“张三/李四”。
第二范式（2NF）：
- 在满足1NF的基础上，要求表中的每一列都与主键直接相关，即非主键列之间没有部分依赖于部分主键的情况。
- 例子：如果有一个订单表，其中包含订单ID（主键）和产品信息，产品信息应该不依赖于订单ID以外的其他字段。
第三范式（3NF）：
- 在满足2NF的基础上，要求非主键列之间没有传递依赖，即非主键列不能相互依赖。
- 例子：假设有一个学生课程表，其中包含学生ID、课程ID和教师ID。如果学生ID和课程ID共同作为主键，那么教师ID不应该依赖于学生ID或课程ID中的任何一个，而应该直接依赖于这个复合主键。

范式化的优点包括减少数据冗余、避免数据异常（如插入异常、更新异常和删除异常）。但是，过度正规化可能会导致查询性能下降，因为可能需要更多的表连接操作。

例子：

假设有一个“学生选课”的数据库表，包含字段：学生ID、学生姓名、课程ID、课程名称、教师ID、教师姓名。

未正规化：如果这个表允许学生ID和课程ID有重复，那么它不符合1NF。
1NF：如果每个学生ID和课程ID都是唯一的，没有重复，那么它符合1NF。
2NF：如果学生ID和课程ID组合是唯一的，并且教师ID和教师姓名只依赖于这个组合（而不是单独依赖于学生ID或课程ID），那么它符合2NF。
3NF：如果教师ID和教师姓名不依赖于学生ID或课程ID，只依赖于学生ID和课程ID的组合，那么它符合3NF。

在实际应用中，数据库设计者需要根据业务需求和性能考虑，在正规化和反规范化之间做出权衡。

4. 简述维度设计中有整合和拆分，有哪些方法，并详细说明？

在维度设计中，整合和拆分是两种常见的技术，用于优化维度模型的结构和性能。以下是一些常用的方法：

整合维度（Conformed Dimensions）：
- 也称为一致维度或共享维度。整合维度是在整个数据仓库中使用单一、一致的维度表，以确保数据的一致性。
- 方法：
  - 确保所有事实表使用相同的维度表，避免数据冗余和不一致。
  - 使用维度值的编码或键值来实现不同业务过程之间的维度整合。
拆分维度（Splitting Dimensions）：
- 将一个维度表拆分成两个或多个相关但独立的维度表，以减少数据冗余和提高查询性能。
- 方法：
  - 根据业务需求将维度属性拆分到不同的表中。
  - 例如，将时间维度拆分为日期、月份、季度等单独的维度表。
缓慢变化维（Slowly Changing Dimension, SCD）：
- 处理维度数据随时间变化的情况，保留历史信息以支持数据的一致性和可追溯性。
- 方法：
  - Type 1（覆盖型）：直接覆盖旧数据。
  - Type 2（追踪型）：添加新记录来追踪变化。
  - Type 3（渐进型）：在现有记录中更新数据，并保留历史数据。
角色维度（Role-Playing Dimensions）：
- 一个维度表在不同的上下文中扮演不同的角色，通常通过增加角色字段来区分。
- 方法：
  - 在维度表中添加角色标识符，如“客户”和“供应商”，即使它们共享相同的数据。
退化维度（Degenerate Dimensions）：
- 当维度表只包含键值而不包含任何描述性信息时，可以将其退化为事实表的一部分。
- 方法：
  - 将维度的键值直接包含在事实表中，而不是作为单独的维度表。
桥接维度（Bridge Dimensions）：
- 当两个维度之间存在多对多关系时，创建一个桥接维度来连接它们。
- 方法：
  - 创建一个新的维度表，包含两个维度的外键，以及可能的额外信息。
层次维度（Ragged Hierarchy）：
- 处理维度中的不规则层次结构，如组织结构中的不同级别。
- 方法：
  - 使用路径枚举或递归查询来处理层次结构中的不规则性。
组合维度（Composite Dimensions）：
- 将多个维度合并为一个维度，以简化模型和查询。
- 方法：
  - 例如，将时间维度和地点维度合并为一个时间-地点维度。
使用维度类型（Using Dimension Types）：
- 根据维度的特性（如时间、文本、数值等）选择最合适的维度类型。
- 方法：
  - 例如，使用时间维度类型来处理日期和时间数据。
维度去规范化（Denormalizing Dimensions）：
- 为了提高查询性能，有时将多个维度表合并为一个去规范化的维度表。
- 方法：
  - 合并维度表，减少查询时的连接操作。

维度设计中的整合和拆分方法需要根据具体的业务需求、数据特性和查询模式来选择。设计过程中需要平衡数据的一致性、可维护性和查询性能。

5. 简述事实表设计分几种，每一种都是如何在业务中使用 ?

事实表是数据仓库中的核心组件，用于存储度量值（如销售额、数量等）和指向维度表的外键。事实表的设计可以根据不同的角度分为几种类型，每种类型在业务中有不同的使用方式：

事务事实表（Transactional Fact Table）：
- 描述单个业务事件，如销售交易、订单提交等。
- 包含时间戳、事务标识符、度量值等。
- 在业务中用于分析特定事件的详细信息。
周期快照事实表（Periodic Snapshot Fact Table）：
- 记录周期性快照数据，如每月库存量、季度财务报表等。
- 包含时间周期标识符、度量值等。
- 在业务中用于分析在特定时间段内的数据变化和趋势。
累积快照事实表（Accumulating Snapshot Fact Table）：
- 记录从开始到当前周期的累积数据，如累积销售额、累积访问量等。
- 通常包含时间戳和累积度量值。
- 在业务中用于分析长期趋势和性能指标。
无度量事实表（Factless Fact Table）：
- 不包含度量值，只包含维度外键，用于记录事件或事务的存在。
- 例如，一个员工登录记录表可能只记录登录时间、员工ID等信息。
- 在业务中用于跟踪事件的发生，而不关注具体的度量。
层次事实表（Hierarchy Fact Table）：
- 用于存储具有层次结构的度量值，如组织结构中的销售数据。
- 包含多个维度外键，每个维度外键对应不同层次的度量值。
- 在业务中用于分析不同层次的汇总数据。
聚合事实表（Aggregated Fact Table）：
- 预先计算并存储了聚合数据，如按月、季度或年汇总的销售数据。
- 减少查询时的计算量，提高查询性能。
- 在业务中用于快速获取汇总数据，支持高层级的决策制定。
合并事实表（Conformed Fact Table）：
- 在多维数据模型中，用于整合不同维度的度量值。
- 包含多个维度的统一外键，以支持跨维度的分析。
- 在业务中用于进行跨不同业务领域的比较和分析。
桥接维度事实表（Bridged Dimension Fact Table）：
- 当两个维度之间存在多对多的关系时，使用桥接事实表来连接它们。
- 例如，一个课程可以有多个教师，一个教师可以教授多个课程。
- 在业务中用于处理复杂的多对多关系。

每种类型的事实表设计都有其特定的业务场景和用途，设计者需要根据具体的业务需求和分析目标来选择合适的事实表类型。

6. 简述单事务事实表、多事务事实表区别与作用？

单事务事实表和多事务事实表是数据仓库中用于存储业务度量数据的两种不同类型的事实表。它们的主要区别和作用如下：

单事务事实表（Single-Transaction Fact Table）：
- 区别：单事务事实表通常记录单个业务事件或交易的详细数据。每个记录对应一个具体的业务活动，如一笔销售或一次服务请求。
- 作用：这种事实表用于详细分析单个事件，例如，评估单个交易的性能、分析客户购买行为或评估特定产品的表现。
多事务事实表（Multi-Transaction Fact Table）：
- 区别：多事务事实表存储一段时间内多个业务事件的聚合数据。例如，它可能包含一个时间段内的所有销售记录的总和。
- 作用：这种事实表用于分析一段时间或范围内的总体趋势和模式，如月度销售总额、季度增长率或年度业绩。