对于互联网企业来说,经过公司业务的高速发展,在起步阶段搭建的公司网站也遇到了瓶颈,整个系统需要进行分布式布置。如果数据库通过优化索引等到了极致,就需要进行数据库分库分表操作。
当一张表的数据达到几千万上亿时时,查询一次所花的时间会变长。这时候,如果有联合查询的话,可能会卡死在那儿,甚至把系统给拖垮。而分库分表的目的就在于:减小数据库的负担,提高数据库的效率,缩短查询时间。而不同的策略有不同的分库分表方法,分为水平与垂直拆分。
垂直拆分数据表
垂直拆分是将原本一张表拆分成不同的表,以文章表为例,可以把内容少的列放一张表,比如标题,作者,时间等,内容多的单独一张表,如文章内容,使用外键关联,由原来的一张表拆分成2张表完成了数据库表的垂直拆分。
水平拆分数据表
水平拆分则是建立多个不同后缀的表名,按照一定的规则进行取模,如建立10张文章表,表名从arc_0到arc_9,以用户id为标准,id%10余数是多少就去那张表保存或查询。
缺点
面对如此散乱的分表之后的数据,应用开发工程师和数据库管理员对数据库的操作变得异常繁重就是其中的重要挑战之一。他们需要知道数据需要从哪个具体的数据库的分表中获取。
另一个挑战则是,能够正确的运行在单节点数据库中的SQL,在分表分库之后的数据库中并不一定能够正确运行。例如,分表导致表名称的修改,或者分页、排序、聚合分组等操作的不正确处理。
数据库拆分
不建议在单台数据库服务器上做数据库拆分,因为分库后带来了新的数据库事务问题,可直接布置多台数据库服务器,采用成熟的分布式数据库中间件大大节省开发周期。推荐由Apache基金会孵化的 ShardingSphere数据库中间件。