数据库的三大范式是什么？为什么需要反范式？

最新推荐文章于 2024-10-02 00:27:17 发布

棒棒的AI编程

最新推荐文章于 2024-10-02 00:27:17 发布

阅读量619

点赞数 13

分类专栏： Java后端面试 MySQL Java面试八股文文章标签：数据库 mysql 后端面试 sql

本文链接：https://blog.csdn.net/qq_30939943/article/details/142445664

版权

Java后端面试同时被 3 个专栏收录

69 篇文章 0 订阅

订阅专栏

Java面试八股文

69 篇文章 1 订阅

订阅专栏

MySQL

12 篇文章 0 订阅

订阅专栏

数据库的三大范式

数据库范式是指数据库设计中的几种规范化规则，用来保证数据库的结构合理、数据冗余最小、数据一致性最佳。三大范式分别是第一范式（1NF）、第二范式（2NF）和第三范式（3NF）。

1. 第一范式（1NF）：列的原子性

定义：第一范式要求数据表中的每一列（字段）都是不可再分的原子值。换句话说，表中的每一列必须是一个不可分割的基本数据项。

目的：确保每个字段只存储一个值，不能存储数组或多值集合。

-- 违背第一范式：
id  | name    | phone
1   | Alice   | 12345, 67890
2   | Bob     | 11111, 22222

上述表中 phone 列存储了多个电话号码，这违反了第一范式。应拆分为：

id  | name    | phone
1   | Alice   | 12345
1   | Alice   | 67890
2   | Bob     | 11111
2   | Bob     | 22222

2. 第二范式（2NF）：消除部分依赖

定义：在满足第一范式的基础上，第二范式要求表中的每个非主属性（非主键字段）都必须完全依赖于主键，而不能只依赖主键的一部分。也就是说，不能有部分依赖的情况（即依赖主键的某一部分而不是整个主键）。

目的：消除表中的部分依赖，防止冗余数据。

假设一个表的主键是 order_id 和 product_id 的组合键，而表中有一个列 order_date 依赖于 order_id，这是部分依赖。

order_id | product_id | order_date | product_name
1        | 101        | 2023-01-01 | Product A
1        | 102        | 2023-01-01 | Product B

应将 order_date 拆分到另一个表，因为它只依赖于 order_id，而不是组合键：

-- 拆分为两张表：
-- 订单表：
order_id | order_date
1        | 2023-01-01

-- 产品表：
order_id | product_id | product_name
1        | 101        | Product A
1        | 102        | Product B

3. 第三范式（3NF）：消除传递依赖

定义：在满足第二范式的基础上，第三范式要求非主属性之间不能有传递依赖，即非主属性不能依赖于其他非主属性，必须直接依赖于主键。

目的：消除数据的传递依赖，避免冗余。

如果表中 order_id 是主键，customer_id 和 customer_name 是非主属性，但 customer_name 依赖于 customer_id，这是传递依赖：

order_id | customer_id | customer_name
1        | 123         | Alice
2        | 123         | Alice

应将 customer_name 拆分到单独的表，去除传递依赖：

-- 订单表：
order_id | customer_id
1        | 123
2        | 123

-- 客户表：
customer_id | customer_name
123         | Alice

为什么需要反范式？

反范式化（Denormalization） 是在设计数据库时，有意违反范式，在某些场景下引入数据冗余或部分依赖，换取查询性能的提升。尽管范式化能减少冗余数据、保证数据一致性，但它往往会导致大量的表关联（join），在高并发的系统中可能会影响性能。

反范式的原因：

性能优化：

在高并发、大数据量的场景下，过多的表关联查询会消耗大量的计算资源，并且增加 I/O 开销。反范式化通过将多个表合并为一个表，减少 JOIN 操作，从而提升查询性能。

例如，在一个社交网络的场景下，用户的头像、名称等信息可能会频繁显示。如果严格按照范式设计，可能需要通过 JOIN 操作从用户表中获取数据。为了减少这种频繁的 JOIN，可以在相关的业务表中冗余存储用户的头像、名称等信息。

减少复杂的 JOIN 操作：

范式化的设计通常会导致表与表之间的高度关联，查询时会出现复杂的多表 JOIN 操作。在一些业务场景下，JOIN 操作会导致性能下降，特别是在数据量大的时候，多个表关联查询的效率会变得非常低。

通过反范式化设计，可以将多个表的数据存储在同一个表中，从而避免 JOIN 操作，提高查询速度。

数据一致性要求较低：

如果系统对数据一致性的要求不高，某些场景可以允许少量的冗余数据。例如，在缓存数据或历史数据表中，反范式化有助于减少查询时的延迟，且数据不需要频繁更新。

高并发系统下的读性能优化：

在高并发场景下，特别是读多写少的应用中，反范式化设计能够将数据冗余到不同表甚至不同库中，以提升读取性能。这种设计常用于读写分离、分库分表的架构中。

反范式的例子：

假设一个购物订单系统，订单表和用户表是分开的，正常的范式化设计要求在每次查询订单时通过 JOIN 从用户表中获取用户信息：

-- 范式化的设计：
SELECT orders.order_id, users.name 
FROM orders
JOIN users ON orders.user_id = users.user_id;

为了避免 JOIN 操作，可以将 users.name 直接冗余存储在订单表中：

-- 反范式化设计：
SELECT order_id, user_name 
FROM orders;

尽管用户名称存在冗余，但这样可以提高查询性能，特别是在高并发场景下。

总结：

范式化 是数据库设计中的一套规则，旨在减少数据冗余、确保数据一致性，并通过表的分解来实现高效的插入、更新、删除操作。

反范式化 是为了解决高并发场景下的性能问题，通过适当的冗余设计减少复杂的查询，尤其是减少 JOIN 操作，提升读性能。

棒棒的AI编程

关注

13
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录