星型模型和雪花模型简介及其对比
一、星型模型
星型模型是由事实表和维度表组成的一种数据模型。事实表包含事实数据,维度表则包含事实数据发生的环境和条件。星型模型的特点是维度表之间没有关联,都和事实表直接关联。星型模型的核心词汇是“事实”,所有的维度都是围绕着事实进行展开的。如下图所示:
星型模型的特点:
- 易于理解和实现。星型模型的结构简单,易于理解和实现,因此在数据仓库的建模中很受欢迎。
- 快速查询。由于星型模型的结构特点,维度表和事实表之间没有复杂的关联,因此可以快速地查询事实数据。
- 难以扩展。星型模型的结构比较固定,难以扩展,如果需要增加新的维度,需要对整个模型进行修改。
二、雪花模型
雪花模型是一种多维的数据模型,它由多个维度表和事实表组成。雪花模型的特点是维度表之间有复杂的关联,这种关联是通过维度表之间的主键和外键来实现的。雪花模型的核心词汇是“维度”,所有的表都是围绕着维度进行展开的。如下图所示:
雪花模型的特点:
- 易于扩展。雪花模型的结构比较灵活,易于扩展,可以方便地增加新的维度和事实。
- 复杂的数据结构。雪花模型的结构比较复杂,需要复杂的数据处理和查询技术才能实现。
- 节省内存。由于雪花模型消除了数据冗余,因此可以节省存储资源。但是在进行分析的时候,需要join外部较多维度表才能得到结果,查询比较复杂效率也较慢。
三、星型模型和雪花模型的对比
1.星型模型因为数据存在冗余,很多时候进行查询统计时不需要再join外部维度表,因此在很多OLAP的场景中,星型模型的效率比雪花模型要高。
2.星型模型不用考虑很多正规化的因素,设计和实现都比较简单
3.雪花模型去除了数据冗余,因此可以节省存储资源。但是在进行分析的时候,需要join外部较多维度表才能得到结果,查询比较复杂效率也较慢。
4.雪花模型的正规化是一种比较复杂的过程,相应的数据库结构设计、数据的ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率。