MySQL旧表做分区流程

1. 为什么做分区

数据库分区是将数据库中的数据划分成独立的部分,每个部分称为一个分区。分区可以根据特定的标准,如范围、列表或哈希值,将数据分隔到不同的物理存储位置中。数据库表分区可以在多种情况下提供显著的好处。以下是一些应该考虑对数据库表进行分区的情况:

  • 大型数据量: 当数据库表包含大量数据时,性能可能会受到影响。通过将表分区,可以将数据分散到不同的物理位置,从而提高查询性能和管理效率。

  • 历史数据管理: 对于需要长期保留历史数据的系统,可以根据时间范围对数据进行分区。这样可以轻松地管理和维护历史数据,执行归档、备份和清理操作。

  • 提高查询性能: 当数据库表面临频繁的查询操作时,分区可以帮助提高查询性能。通过将数据分散到多个分区,可以减少单个查询对系统的压力,从而提高整体性能。

  • 改善数据加载速度: 对于需要频繁加载数据的系统,分区可以帮助提高数据加载速度。例如,在分析型数据库中,可以根据时间范围对数据进行分区,以便更快地加载最新的数据。

  • 数据安全性要求: 对于需要对数据进行严格隔离和访问控制的系统,可以通过分区来实现数据的安全存储和管理。例如,可以将敏感数据存储在单独的分区中,并为其应用更严格的访问控制。

  • 提高可用性和容错性: 通过将数据分散到多个物理位置,可以提高系统的可用性和容错性。如果一个分区发生故障,其他分区仍然可以继续工作,从而降低了系统停机时间。

总的来说,数据库表分区可以在面对大量数据、频繁查询、历史数据管理或数据安全性要求等情况下提供多种好处。然而,需要在实际应用中仔细权衡利弊,以确定是否值得对数据库表进行分区。

2. 旧表分区步骤

2.1 备份原始表

rename table t_A to t_A_bak;

2.2 创建新表,定义分区规则,创建初始分区

create table t_A (
	ID int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
    NAME varchar(255) NOT NULL COMMENT '姓名',
    IDCARD varchar(255) NOT NULL COMMENT '身份证号码',
    PHONE varchar(255) DEFAULT NULL COMMENT '手机号码',
    CREATE_TIME datetime NOT NULL COMMENT '创建时间',
    MOD_TIME datetime DEFAULT NULL COMMENT '修改时间',
    PRIMARY KEY (ID, CREATE_TIME)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
partition by range columns (CREATE_TIME) (
    -- 按月分区
	partition `P_202401` values less than ('2024-02-01 00:00:00'),
    partition `P_202402` values less than ('2024-03-01 00:00:00'),
    partition `P_202403` values less than ('2024-04-01 00:00:00'),
    partition `P_202404` values less than ('2024-05-01 00:00:00'),
    partition `P_202405` values less than ('2024-06-01 00:00:00')
);

注意事项:

  • 分区列不能为 NULL;
  • 分区列必须是主键索引,一般与 ID 列构成主键复合索引;
  • 如果表存在唯一索引,分区列还需添加到唯一索引中(这种情况,要考虑该唯一索引是否有必要,添加分区字段不可避免地破坏唯一逻辑,若没必要直接删除,若有必要,那得在Java代码里处理唯一逻辑);

2.3 新表插入原始数据

insert into t_A select t_A_bak where create_time >= #{startTime} and create_time < #{endTime};

注意事项:

  • select ... 后面最好加 where 条件,where 跟的筛选列需创建索引,否则全表扫描,容易产生锁表,丢失数据等;这个问题的详细分析参考 [同事使用 insert into select 迁移数据,开开心心上线,上线后被公司开除!]

  • 若是停机更新,不担心锁表问题,或是 where 跟的筛选列没有创建索引,则可以不加 where 条件,直接insert into B select * from A

    • 针对这种方式,曾经担心过一个问题:【若表A超大,数据量达到千万级别,MySQL 是否一次性地把表A的所有数据查出来放到内存或是磁盘,再一次性地插入表B?如果这样,不可避免地导致内存爆炸或是 IO 次数增加】:这个问题我抛给 ChatGPT 解答,它的解释如贴图。不过我觉得最好还是手动分批查询插入吧。
      在这里插入图片描述

2.4 新表创建原始索引

注意:要最后创建原表索引;

-- 创建原表的身份证号码的唯一索引,在线不锁表方式创建索引
create index `IDX_IDCARD` on t_A (`IDCARD`) algorithm=inplace lock=none;

如果先建立索引,再插入数据,由于索引相当于一种排序,插入数据时会给数据进行排序,毫无疑问会影响插入数据的性能。

3. 分区相关SQL

-- 查询某张表每个分区的数据行数
select table_name, partition_name, table_rows from information_schema.partitions where table_name = 't_A';
-- 若上述语句没有显示行数为0,需刷新一下表
analyze table t_A;
-- 查询某个分区的数据
select * from t_A partition (P_202401);
-- 删除某个分区,分区数据也一并删除
alter table t_A drop partition P_202401;
-- 新增分区
alter table t_A add partition (partition `P_202406` values less than ('2024-07-01 00:00:00'));

  • 29
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值