前言
随着业务数据量爆发式增长,单库单表逐渐成为性能瓶颈 —— 千万级数据下查询变慢、写入阻塞、存储成本飙升。分库分表通过将数据分散到多个数据库 / 表,突破单节点限制,是应对海量数据的核心解决方案。本文从分片策略、实现方式到实战案例,结合代码示例,带你掌握分库分表的核心技术与落地细节。
一、分库分表核心价值:为什么需要拆分?
1. 单库瓶颈场景
- 性能瓶颈:单库 QPS 超过 2000 后,CPU / 内存 / 磁盘 IO 成为瓶颈
- 存储限制:单表数据超过 5000 万行,索引体积膨胀,查询效率骤降
- 并发压力:高并发写入时,锁竞争导致吞吐量下降
2. 拆分目标
维度 | 单库单表 | 分库分表 |
---|---|---|
数据规模 | 单表≤5000 万行,单库≤100GB | 单表≤1000 万行,单库≤50GB |
并发能力 | 单库 QPS≤5000 | 水平扩展后 QPS 线性提升 |
可用性 | 单点故障风险高 | 故障影响范围缩小 |
3. 核心模式
- 垂直拆分:按业务 / 字段拆分(如订单库与用户库分离)
- 水平拆分:按数据行拆分(如用户 ID 哈希分片)
二、分片策略:如何选择拆分方式?
1. 垂直拆分:业务与字段级拆分
(1)按业务拆分(垂直分库)
- 适用场景:不同业务模块解耦(如电商系统拆分为订单库、库存库)
- 优势:业务清晰,降低单个库复杂度
- 示例架构:
应用层 → 订单库 ↔ 库存库 ↔ 用户库
(2)按字段拆分(垂直分表)
- 适用场景:大字段与高频字段分离(如用户表拆分基础信息表与扩展信息表)
- SQL 示例:
-- 原表 CREATE TABLE user (id BIGINT, name VARCHAR(50), profile TEXT); -- 拆分为基础表与扩展表 CREATE TABLE user_base (id BIGINT, name VARCHAR(50)); CREATE TABLE user_extend (id BIGINT, profile TEXT);
2. 水平拆分:数据行级拆分
(1)哈希分片(最常用)
- 分片键:选择高频查询字段(如 user_id、order_id)
- 算法:
分片节点 = 哈希值 % 节点数
- 示例代码(Java):
public static int getShardId(Long userId, int shardCount) { return Math.abs(userId.hashCode()) % shardCount; }
- 优势:数据分布均匀,适合等值查询
- 劣势:范围查询(如按时间排序)需跨分片聚合
(2)范围分片
- 分片键:时间、ID 范围(如按年份拆分订单表)
- 示例 SQL(分区表):
CREATE TABLE orders_2023 ( id BIGINT, order_time DATE, amount DECIMAL(10,2) ) PARTITION BY RANGE (YEAR(order_time)) ( PARTITION p2023 VALUES LESS THAN (2024) );
- 优势:天然支持范围查询
- 劣势:热点分片(如最近一年的数据表)
(3)一致性哈希(应对扩容)
- 核心:通过哈希环减少节点变动时的数据迁移
- 示例逻辑:
哈希环(0~2^32-1) → 节点映射多个虚拟节点 → 新增节点仅迁移相邻虚拟节点数据
三、实现方式:从应用层到中间件的技术选型
1. 应用层拆分(轻量级,推荐)
(1)Sharding-JDBC 实现
1. 引入依赖:
<dependency>
<groupId>org.apache.shardingsphere</groupId>
<artifactId>sharding-jdbc-core</artifactId>
<version>5.3.1</version>
</dependency>
2. 分片配置(YAML):
spring:
shardingsphere:
datasource:
n