随着业务和数据量的增长,单库的IO压力越来越大,数据库切分是分散数据库访问压力的基本方法。Sharding的基本思想就是把一个数据库切分成多个部分放到不同的DB server上,从而解决单一数据库的性能问题。
1、垂直切分
一个复杂的业务系统,可以先根据业务子系统,模块把数据库表切分到不同的server上,关系紧密的表自然划分到一个server上。
2、水平切分
按业务模块垂直切分后,可能有些单表数据还是非常大,访问性能低下,这时需要对这个shard上的数据水平切分。即把表数据按某种规则(比如按ID hash)切分到多个数据库(server)上,规则选择很重要,对后续数据的继续增长影响很大。
数据库切分带来的问题
跨节点数据库事务控制:
跨节点表连接问题
只要数据发生了切分,跨节点Join的问题是不可避免的。但是良好的设计和切分却可以减少此类情况的发生。解决这一问题的普遍做法是分两次查询实现。在第一次查询的结果集中找出关联数据的id,根据这些id发起第二次请求得到关联数据。
跨节点查询 count,order by,group by以及各类聚合函数问题
这类问题都需要基于全部数据集合进行计算。多数的数据库代理都不会自动处理合并工作。与解决跨节点join问题的类似,需要应用层做处理,分别在各个shard上得到结果后在应用程序端进行合并。和join不同的是每个结点的查询可以并行执行,因此很多时候它的速度要比单一大表快很多。但如果结果集很大,对应用程序内存的消耗是一个问题。