建模是指根据实际问题或系统的需求,将其抽象为一组数学模型,以便更好地进行分析、预测、优化、控制等操作。
数据仓库常见的数据建模思路有2:
- 范式建模:范式建模是数据库设计中的建模方法,其基本思想是将现实世界中的实体和实体之间的关系抽象成关系模型。
- 维度建模:维度建模是指按照事实表、维表来构建数据仓库、数据集市,最简单的描述就是以一颗“星”为中心,周围围绕着其他数据结构,维表里的数据量要比事实表里的少。
下面以数仓常用建模方式 -- 维度建模为例:
维度建模第一步:确定需求。
确定数据仓库系统的需求,包括主题域、业务过程、度量、数据源等 。在此步骤中,需要明确业务需求和用户需要获取的信息。这包括确定分析目标、识别业务过程和数据来源、确定数据维度和指标等。通常需要与业务人员进行讨论,了解他们的要求和期望,以确保维度模型能够满足业务需求。同时,还需考虑数据的完整性、可用性、适应性和准确性等因素,以确保维度模型的质量和实用性。
维度建模第二步:选择数据源。
选择合适的数据源,包括业务系统、外部数据等。
在维度建模中选择数据源是非常重要的一步。在选择数据源时需要考虑以下因素:
-
数据质量:数据源的数据必须准确、完整、可靠,否则建模出来的数据仍然是垃圾数据。
-
数据量:数据源需要包含足够的数据以满足需求。
-
数据稳定性:数据源应该是稳定的,不会因为系统故障或其他因素而中断或无法访问。