【面试系列Ⅱ】数据库设计三范式

晓屋

已于 2023-10-14 19:28:49 修改

阅读量208

点赞数 2

文章标签：数据库面试 java mysql

于 2023-10-14 19:07:55 首次发布

本文链接：https://blog.csdn.net/qq_38311294/article/details/133828192

版权

本文将深入探讨数据库设计三范式的概念和原则，并提供实际示例，以帮助您理解如何应用这些范式来改善数据库设计。我们将探讨每个范式的定义、违反范式的情况以及如何将数据库表规范化以符合三范式的要求。（ PS:文末有彩蛋）

1.第一范式 (1NF)

第一范式要求每个数据库表的每一列都包含原子性的数据，也就是说，每个数据单元都不能再分解成更小的数据单元。这意味着每个列不应包含集合、数组、记录等复杂的数据结构，而应该包含单一的数据类型。第一范式的目标是消除数据冗余和确保数据的原子性。

假设我们有一个存储学生课程成绩的数据库表，如下所示：

学生ID 课程名称成绩
101 数学, 物理, 化学 85, 90, 78
102 历史, 地理 70, 88
103 英语 92

在这个表中，第一列是学生ID，第二列是课程名称，第三列是成绩。然而，课程名称和成绩列都违反了第一范式的规则，因为它们包含了多个值，并且这些值之间使用逗号分隔。

要使这个表符合第一范式，我们需要将它重构为如下两个表：

学生表（Students）：

学生ID 学生姓名
101 小明
102 小红
103 小李

成绩表（Grades）：

学生ID 课程名称成绩
101 数学 85
101 物理 90
101 化学 78
102 历史 70
102 地理 88
103 英语 92

通过将原始表分成两个表，我们消除了课程名称和成绩中的多值字段，并确保每个表中的每一列都包含原子性的数据，符合第一范式的要求。这种重构使得数据更加规范化，易于查询和维护，同时也提高了数据的一致性和可靠性。

学生ID	课程名称	成绩
101	数学, 物理, 化学	85, 90, 78
102	历史, 地理	70, 88
103	英语	92

学生ID	学生姓名
101	小明
102	小红
103	小李

学生ID	课程名称	成绩
101	数学	85
101	物理	90
101	化学	78
102	历史	70
102	地理	88
103	英语	92

2.第二范式(2NF)

第二范式是在第一范式的基础上建立起来的。它要求非主键属性必须完全依赖于候选键（主键）。这意味着数据库表中的每一条记录必须能够被唯一地识别，并且非主键属性不能依赖于主键的一部分。如果存在部分函数依赖，需要将数据表分解为多个表，以确保数据的完整性和一致性。

假设我们有一个关于图书和作者的数据库，其中包含以下两个表：Books（图书）和Authors（作者）。

Books（图书）表：

书籍ID 书籍名称作者ID 作者名字
1 "数据库101" 101 "张三"
2 "编程入门" 102 "李四"
3 "数据结构" 103 "王五"

Authors（作者）表：

作者ID 作者名字
101 "张三"
102 "李四"
103 "王五"

在这两个表中，Books表包含了图书信息，其中包括书籍ID、书籍名称和作者ID。Authors表包含了作者信息，其中包括作者ID和作者名字。

现在，让我们来检查是否满足第二范式的要求。主键是Books表中的书籍ID，非主键属性包括书籍名称和作者ID。

问题出现在这里：书籍名称依赖于书籍ID，但作者名字也依赖于作者ID。这意味着非主键属性（书籍名称和作者名字）部分依赖于候选键（主键），因为它们不完全依赖于整个候选键（书籍ID或作者ID）。

为了符合第二范式，我们需要对数据库模型进行重构，以确保非主键属性完全依赖于候选键。一种可能的解决方案是创建一个单独的表，将书籍名称与作者ID关联，以消除部分函数依赖关系。

Books（图书）表（改进后）：

书籍ID 书籍名称作者ID
1 "数据库101" 101
2 "编程入门" 102
3 "数据结构" 103

Authors（作者）表（不需要更改）：

作者ID 作者名字
101 "张三"
102 "李四"
103 "王五"

BooksAuthors（图书作者）表（新增）：

书籍ID 作者ID
1 101
2 102
3 103

通过这种方式，我们将书籍名称与作者ID 关联到一个新的表中，确保了每个非主键属性直接依赖于整个候选键。这个改进后的数据库设计符合第二范式的要求，消除了部分函数依赖，提高了数据的一致性和结构的合理性。

书籍ID	书籍名称	作者ID	作者名字
1	"数据库101"	101	"张三"
2	"编程入门"	102	"李四"
3	"数据结构"	103	"王五"

作者ID	作者名字
101	"张三"
102	"李四"
103	"王五"

书籍ID	书籍名称	作者ID
1	"数据库101"	101
2	"编程入门"	102
3	"数据结构"	103

作者ID	作者名字
101	"张三"
102	"李四"
103	"王五"

书籍ID	作者ID
1	101
2	102
3	103

3.第三范式 (3NF)

第三范式是在第二范式的基础上建立起来的。它要求任何非主属性都不应该依赖于其他非主属性，消除传递依赖关系。这意味着数据表中的每个列应该直接依赖于主键，而不是间接依赖于其他非主属性。如果存在传递依赖，需要进一步规范化数据表，以减少数据冗余并确保数据的一致性。

假设我们有一个关于订单的数据库，其中包含以下三个表：Orders（订单）、Customers（客户）和Products（产品）。

Orders（订单）表：

订单号客户ID 客户名字产品ID 产品名字数量价格
1 101 "张三" 201 "手机" 2 500
2 102 "李四" 202 "笔记本" 1 800
3 103 "王五" 203 "耳机" 3 100

在这些表中，Orders表包含了订单信息，Customers表包含了客户信息，Products表包含了产品信息。

问题出现在这里：Orders表中的客户名字和产品名字依赖于客户ID和产品ID，而不是直接依赖于订单号。这意味着非主属性（客户名字和产品名字）存在传递依赖关系。

为了符合第三范式，我们需要对数据库模型进行重构，以确保非主属性不依赖于其他非主属性。一种可能的解决方案是创建两个新的表，分别用于存储客户信息和产品信息，然后在订单表中使用客户ID和产品ID来引用这些信息。

Customers（客户）表：

客户ID 客户名字
101 "张三"
102 "李四"
103 "王五"

Products（产品）表：

产品ID 产品名字
201 "手机"
202 "笔记本"
203 "耳机"

Orders（订单）表（改进后）：

订单号客户ID 产品ID 数量价格
1 101 201 2 500
2 102 202 1 800
3 103 203 3 100

通过这种方式，我们将客户名字和产品名字存储在独立的表中，确保非主属性直接依赖于主键（客户ID和产品ID），消除了传递依赖关系。这个改进后的数据库设计符合第三范式的要求，提高了数据的一致性和结构的合理性。这种规范化设计有助于确保数据库的可维护性和数据一致性。

订单号	客户ID	客户名字	产品ID	产品名字	数量	价格
1	101	"张三"	201	"手机"	2	500
2	102	"李四"	202	"笔记本"	1	800
3	103	"王五"	203	"耳机"	3	100

客户ID	客户名字
101	"张三"
102	"李四"
103	"王五"

产品ID	产品名字
201	"手机"
202	"笔记本"
203	"耳机"

订单号	客户ID	产品ID	数量	价格
1	101	201	2	500
2	102	202	1	800
3	103	203	3	100

4.范式与性能权衡

数据库设计三范式是确保数据库模型具有高度规范性、一致性和数据完整性的关键原则。然而，与之相关的是性能问题，因为过于规范化的设计可能会导致查询性能下降。在数据库设计中，需要谨慎权衡三范式和性能之间的取舍，以下是一些关于数据库性能权衡的建议：

了解业务需求： 首先，深入了解业务需求非常重要。理解数据如何使用以及哪些查询频繁执行可以帮助您更好地权衡性能和规范性。

应用范式有选择性： 不必死板地追求三范式的完全符合。在某些情况下，可以容忍一定程度的冗余，以提高查询性能。这被称为反范式设计。

使用索引： 合理使用索引可以大大提高查询性能。确保数据库表上的查询字段被适当地索引，以减少查询时的扫描和过滤操作。

缓存和优化查询： 使用缓存机制，如缓存查询结果或使用缓存服务器，可以显著提高查询性能。此外，优化查询语句和数据库查询计划也是提高性能的关键。

分区和分表： 针对大型数据库，将数据分割成更小的分区或分表可以减轻查询负载。这可以通过水平分区（按行拆分数据）或垂直分区（按列拆分数据）来实现。

使用适当的数据类型： 使用最合适的数据类型，以减少存储空间的消耗和提高查询性能。避免不必要的大型数据类型或字符字段。

定期维护和清理数据： 定期执行数据库维护任务，如清理不再使用的数据、重新组织表、重新生成索引等，以确保数据库性能始终保持在最佳状态。

性能监控和调整： 始终监控数据库性能，及时发现和解决性能问题。可以使用性能监控工具和日志来帮助定位问题并进行调整。

考虑垂直和水平扩展： 如果数据库负载不断增加，考虑垂直扩展（升级硬件）或水平扩展（分布式数据库）以增加性能。

总之，数据库设计三范式是一组重要的规范，但在实际应用中，性能通常是同样重要的因素。权衡性能和规范性需要根据具体情况，根据业务需求和查询模式来做出明智的决策。合理的规范化设计和性能优化策略可以确保数据库在满足业务需求的同时提供出色的性能。

5.三范式书籍推荐

《数据库系统概念》（Database System Concepts） by Abraham Silberschatz, Henry F. Korth, and S. Sudarshan - 这本经典的数据库教材涵盖了数据库设计的基础原理，包括范式化理论和实践。它是学习数据库设计的很好的起点。

《数据库管理系统》（Database Management Systems） by Raghu Ramakrishnan and Johannes Gehrke - 这本教材也涵盖了数据库设计的基本概念，包括范式化，以及实际的数据库管理系统实现。

《SQL与关系数据库设计》（SQL and Relational Database Design） by Michael J. Hernandez - 这本书专注于SQL和关系数据库设计，包括范式化和规范化的实际应用。它提供了大量的示例和案例研究。

《精通SQL和数据库设计》（SQL and Relational Theory: How to Write Accurate SQL Code） by C.J. Date - C.J. Date是关系数据库的权威之一，这本书深入探讨了关系数据库理论，包括范式化和规范化的各个方面。

《实践SQL数据库设计与优化》（Practical SQL: A Beginner's Guide to Storytelling with Data） by Anthony DeBarros - 这本书提供了从实际角度出发的数据库设计和优化方法，强调了数据库设计的实用性。

《SQL性能优化》（SQL Performance Explained） by Markus Winand - 该书重点关注SQL性能优化，但也包括了数据库设计的一些关键原则，有助于理解范式化和性能的权衡。