前言
MySQL在创建表时使用PARITION BY字句定义每个分区存放的数据。在执行查询的时候,优化器会根据分区定义过滤那些没有我们需要数据的分区,这样查询就无须扫描所有分区——只需要查找包含需要数据的分区就可以了。
理解分区表
假设现在要查询一个超过1TB的数据集,你打算如何查询这个表?首先肯定不能出现全表扫描,你可能会想到使用索引,也许情况好点可以通过一两个索引优化这个查询,不过在这种超TB级别的情况下,B-TREE索引不会起到任何作用,除非是索引覆盖查询,否则数据库服务器需要根据索引扫描的结果回表,查询所有符合条件的记录,这将会产生大量随机I/O,数据量巨大的时候,维护索引的代价也非常高。
这正是分区要做的事情。你可以将其当作索引的最初形态来理解分区,以代价非常小的方式定位到需要的数据在哪一片“区域”。在这片“区域”内,你可以使用顺序扫描,也可以建立索引,还可以将数据放进内存等等。因为分区的代价非常低。只需要一个简单的表达式就可以表达每个分区存放的是什么数据。
分区表原理
分区表对应用是透明的,对于用户来说,分区表就是一张普通的表。存储引擎管理分区的各个底层表和管理普通表是一样的,分区表的索引只是在各个底层表上各自加上一个完全相同的索引。但是MySQL底层实现分区表和普通表是有区别的,分区表底层由多个物理子表组成,每一个分区表都有一个使用#分隔命名的表文件。在分区表上进行操作逻辑如下:
SELECT查询:当查询一个分区表的时候,分区层先打开并锁住所有的底层表,优化器先判断是否可以过滤部分分区,然后在调用对于的存储引擎接口访问各个分区的数据。
I