分库分表之淘宝TDDL的原理

最新推荐文章于 2024-04-07 14:27:28 发布

余飞军

最新推荐文章于 2024-04-07 14:27:28 发布

阅读量1.7k

点赞数

分类专栏： BAT面试题文章标签：分库分表

本文链接：https://blog.csdn.net/u013030086/article/details/86146007

版权

分库分表之淘宝TDDL的原理

一、互联网当下的数据库拆分过程
二、TDDL的架构原型
三、下载TDDL的Atom层和Group层源代码
四、Diamond简介
五、Diamond的安装和使用
六、动态数据源层的Master/Salve读写分离配置与实现
七、Matrix层的分库分表配置与实现

一、互联网当下的数据库拆分过程

对于一个刚上线的互联网项目来说，由于前期活跃用户数量并不多，并发量也相对较小，所以此时企业一般都会选择将所有数据存放在一个数据库中进行访问操作。但随着后续的市场推广力度不断加强，用户数量和并发量不断上升，这时如果仅靠一个数据库来支撑所有访问压力，几乎是在自寻死路。所以一旦到了这个阶段，大部分Mysql DBA就会将数据库设置成读写分离状态，也就是一个Master节点对应多个Salve节点。经过Master/Salve模式的设计后，完全可以应付单一数据库无法承受的负载压力，并将访问操作分摊至多个Salve节点上，实现真正意义上的读写分离。但大家有没有想过，单一的Master/Salve模式又能抗得了多久呢？如果用户数量和并发量出现量级上升，单一的Master/Salve模式照样抗不了多久，毕竟一个Master节点的负载还是相对比较高的。为了解决这个难题，Mysql DBA会在单一的Master/Salve模式的基础之上进行数据库的垂直分区（分库）。所谓垂直分区指的是可以根据业务自身的不同，将原本冗余在一个数据库内的业务表拆散，将数据分别存储在不同的数据库中，同时仍然保持Master/Salve模式。经过垂直分区后的Master/Salve模式完全可以承受住难以想象的高并发访问操作，但是否可以永远高枕无忧了？答案是否定的，一旦业务表中的数据量大了，从维护和性能角度来看，无论是任何的CRUD操作，对于数据库而言都是一件极其耗费资源的事情。即便设置了索引，仍然无法掩盖因为数据量过大从而导致的数据库性能下降的事实，因此这个时候Mysql DBA或许就该对数据库进行水平分区（分表，sharding），所谓水平分区指的是将一个业务表拆分成多个子表，比如user_table0、user_table1、user_table2。子表之间通过某种契约关联在一起，每一张子表均按段位进行数据存储，比如user_table0存储1-10000的数据，而user_table1存储10001-20000的数据，最后user_table3存储20001-30000的数据。经过水平分区设置后的业务表，必然能够将原本一张表维护的海量数据分配给N个子表进行存储和维护，这样的设计在国内一流的互联网企业比较常见，如图1-1所示：
在这里插入图片描述
图1-1 水平分区
　　上述笔者简单的讲解了数据库的分库分表原理。接下来请大家认真思考下。原本一个数据库能够完成的访问操作，现在如果按照分库分表模式设计后，将会显得非常麻烦，这种麻烦尤其体现在访问操作上。因为持久层需要判断出对应的数据源，以及数据源上的水平分区，这种访问方式我们称之为访问“路由”。按照常理来说，持久层不应该负责数据访问层(DAL)的工作，它应该只关心one to one的操作形式，所以淘宝的TDDL框架诞生也就顺其自然了。

二、TDDL的架构原型

淘宝根据自身业务需求研发了TDDL（Taobao Distributed Data Layer）框架，主要用于解决分库分表场景下的访问路由（持久层与数据访问层的配合）以及异构数据库之间的数据同步，它是一个基于集中式配置的JDBC DataSource实现，具有分库分表、Master/Salve、动态数据源配置等功能。
就目前而言，许多大厂也在出一些更加优秀和社区支持更广泛的DAL层产品，比如Hibernate Shards、Ibatis-Sharding等。TDDL位于数据库和持久层之间，它直接与数据库建立交道，如图1-2所示：

图1-2 TDDL所处领域模型定位
　　传说淘宝很早以前就已经对数据进行过分库分表处理，应用层连接多个数据源，中间有一个叫做DBRoute的技术对数据库进行统一的路由访问。DBRoute对数据进行多库的操作、数据的整合，让应用层像操作一个数据源一样操作多个数据库。但是随着数据量的增长，对于库表的分法有了更高的要求，例如，你的商品数据到了百亿级别的时候，任何一个库都无法存放了，于是分成2个、4个、8个、16个、32个……直到1024个、2048个。好，分成这么多，数据能够存放了，那怎么查询它？这时候，数据查询的中间件就要能够承担这个重任了，它对上层来说，必须像查询一个数据库一样来查询数据，还要像查询一个数据库一样快（每条查询要求在几毫秒内完成），TDDL就承担了这样一个工作（其他DAL产品做得更好），如图1-3所示：
在这里插入图片描述
图1-3 TDDL分库分表查询策略
　　上述笔者描述了TDDL在分库分表环境下的查询策略，那么接下来笔者有必要从淘宝官方copy它们自己对TDDL优点的一些描述，真实性不敢保证，毕竟没完全开源，和社区零支持，大家看一看就算了，别认真。
淘宝人自定的TDDL优点：
1、数据库主备和动态切换；
2、带权重的读写分离；
3、单线程读重试；
4、集中式数据源信息管理和动态变更；
5

最低0.47元/天解锁文章

余飞军

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分库分表之淘宝TDDL的原理

淘宝TDDL的原理一、互联网当下的数据库拆分过程二、TDDL的架构原型三、下载TDDL的Atom层和Group层源代码四、Diamond简介五、Diamond的安装和使用六、动态数据源层的Master/Salve读写分离配置与实现七、Matrix层的分库分表配置与实现一、互联网当下的数据库拆分过程对于一个刚上线的互联网项目来说，由于前期活跃用户数量并不多，并发量也相对较小，所以此时企业一般都会...
复制链接

扫一扫