前言
今天和同事聊起一个大家都熟悉的话:“当数据量超过百万级应该怎么优化?”,这时你可能立马会想到:“拆分数据表…”,至于说怎么拆分,接上面话题我说一下我的想法,写的不好,不足之处希望大家指出。
垂直拆分
垂直拆分是指数据表列的拆分,把一张列比较多的表拆分为多张表,例如:把主键和一些常用的列放到一张表,然后把主键和另一些不常用的列放到另一个表中
- 应用场景
- 如果一个表中的某些列常用,而另一些不常用
- 可以使数据列减少,提高查询效率
- 缺点
管理冗余列,查询所有数据需要关联查询JOIN
操作 - 拆分原则
- 把不常用的字段单独放在一张表
- 把text,blob等大字段拆分出来放在附表中
- 经常组合查询的列放在一张表中
注:垂直拆分更多时候就应该在数据表设计之初就执行的步骤,然后查询的时候用JOIN
关键起来即可
水平拆分
水平拆分是指数据表行的拆分,表的行数超过400万行时,就会变慢,这时可以把一张的表的数据拆成多张表来存放。
- 应用场景
单表记录达条数达到百万级或者千万级时 - 缺点
给应用增加复查度,通常查询时需要多个表名,查询所有数据都需要UNION
操作 - 拆分原则
- 通常情况下,我们使用取模的方式来进行表的拆分;比如一张有400W的用户表
users
,为提高其查询效率我们把其分成4张表users1,users2,users3,users4
- 通过用ID取模的方法把数据分散到四张表内
Id%4+1 = [1,2,3,4]
- 然后查询,更新,删除也是通过取模的方法来查询
- 实现
$_GET['id'] = 17,
17%4 + 1 = 2,
$tableName = 'users'.'2'
Select * from users2 where id = 17;
在insert
时还需要一张临时表uid_
temp来提供自增的ID
,该表的唯一用处就是提供自增的ID
insert into uid_temp values(null);
得到自增的ID
后,又通过取模法进行分表插入
注意:进行水平拆分后的表,字段的列和类型和原表应该是相同的,但是要记得去掉auto_increment
自增长
- 另外
-
部分业务逻辑也可以通过地区,年份等字段来进行归档拆分
-
进行拆分后的表,只能满足部分查询的高效查询需求,这时我们就要在产品策划上,从界面上约束用户查询行为。比如我们是按年来进行归档拆分的,这个时候在页面设计上就约束用户必须要先选择年,然后才能进行查询
-
在做分析或者统计时,由于是自己人的需求,多点等待其实是没关系的,并且并发很低,这个时候可以用
union
把所有表都组合成一张视图来进行查询,然后再进行查询