数据库的三大范式
数据库范式是指数据库设计中的几种规范化规则,用来保证数据库的结构合理、数据冗余最小、数据一致性最佳。三大范式分别是第一范式(1NF)、第二范式(2NF) 和 第三范式(3NF)。
1. 第一范式(1NF):列的原子性
定义:第一范式要求数据表中的每一列(字段)都是不可再分的原子值。换句话说,表中的每一列必须是一个不可分割的基本数据项。
目的:确保每个字段只存储一个值,不能存储数组或多值集合。
-- 违背第一范式:
id | name | phone
1 | Alice | 12345, 67890
2 | Bob | 11111, 22222
上述表中 phone
列存储了多个电话号码,这违反了第一范式。应拆分为:
id | name | phone
1 | Alice | 12345
1 | Alice | 67890
2 | Bob | 11111
2 | Bob | 22222
2. 第二范式(2NF):消除部分依赖
定义:在满足第一范式的基础上,第二范式要求表中的每个非主属性(非主键字段)都必须完全依赖于主键,而不能只依赖主键的一部分。也就是说,不能有部分依赖的情况(即依赖主键的某一部分而不是整个主键)。
目的:消除表中的部分依赖,防止冗余数据。
假设一个表的主键是 order_id
和 product_id
的组合键,而表中有一个列 order_date
依赖于 order_id
,这是部分依赖。
order_id | product_id | order_date | product_name
1 | 101 | 2023-01-01 | Product A
1 | 102 | 2023-01-01 | Product B
应将 order_date
拆分到另一个表,因为它只依赖于 order_id
,而不是组合键:
-- 拆分为两张表:
-- 订单表:
order_id | order_date
1 | 2023-01-01
-- 产品表:
order_id | product_id | product_name
1 | 101 | Product A
1 | 102 | Product B
3. 第三范式(3NF):消除传递依赖
定义:在满足第二范式的基础上,第三范式要求非主属性之间不能有传递依赖,即非主属性不能依赖于其他非主属性,必须直接依赖于主键。
目的:消除数据的传递依赖,避免冗余。
如果表中 order_id
是主键,customer_id
和 customer_name
是非主属性,但 customer_name
依赖于 customer_id
,这是传递依赖:
order_id | customer_id | customer_name
1 | 123 | Alice
2 | 123 | Alice
应将 customer_name
拆分到单独的表,去除传递依赖:
-- 订单表:
order_id | customer_id
1 | 123
2 | 123
-- 客户表:
customer_id | customer_name
123 | Alice
为什么需要反范式?
反范式化(Denormalization) 是在设计数据库时,有意违反范式,在某些场景下引入数据冗余或部分依赖,换取查询性能的提升。尽管范式化能减少冗余数据、保证数据一致性,但它往往会导致大量的表关联(join),在高并发的系统中可能会影响性能。
反范式的原因:
- 性能优化:
在高并发、大数据量的场景下,过多的表关联查询会消耗大量的计算资源,并且增加 I/O 开销。反范式化通过将多个表合并为一个表,减少 JOIN
操作,从而提升查询性能。
例如,在一个社交网络的场景下,用户的头像、名称等信息可能会频繁显示。如果严格按照范式设计,可能需要通过 JOIN
操作从用户表中获取数据。为了减少这种频繁的 JOIN
,可以在相关的业务表中冗余存储用户的头像、名称等信息。
- 减少复杂的
JOIN
操作:
范式化的设计通常会导致表与表之间的高度关联,查询时会出现复杂的多表 JOIN
操作。在一些业务场景下,JOIN
操作会导致性能下降,特别是在数据量大的时候,多个表关联查询的效率会变得非常低。
通过反范式化设计,可以将多个表的数据存储在同一个表中,从而避免 JOIN
操作,提高查询速度。
- 数据一致性要求较低:
如果系统对数据一致性的要求不高,某些场景可以允许少量的冗余数据。例如,在缓存数据或历史数据表中,反范式化有助于减少查询时的延迟,且数据不需要频繁更新。
- 高并发系统下的读性能优化:
在高并发场景下,特别是读多写少的应用中,反范式化设计能够将数据冗余到不同表甚至不同库中,以提升读取性能。这种设计常用于读写分离、分库分表的架构中。
反范式的例子:
假设一个购物订单系统,订单表和用户表是分开的,正常的范式化设计要求在每次查询订单时通过 JOIN
从用户表中获取用户信息:
-- 范式化的设计:
SELECT orders.order_id, users.name
FROM orders
JOIN users ON orders.user_id = users.user_id;
为了避免 JOIN
操作,可以将 users.name
直接冗余存储在订单表中:
-- 反范式化设计:
SELECT order_id, user_name
FROM orders;
尽管用户名称存在冗余,但这样可以提高查询性能,特别是在高并发场景下。
总结:
范式化 是数据库设计中的一套规则,旨在减少数据冗余、确保数据一致性,并通过表的分解来实现高效的插入、更新、删除操作。
反范式化 是为了解决高并发场景下的性能问题,通过适当的冗余设计减少复杂的查询,尤其是减少 JOIN
操作,提升读性能。