分布式存储原理：TiDB

最新推荐文章于 2024-08-02 11:04:01 发布

小魏的博客

最新推荐文章于 2024-08-02 11:04:01 发布

阅读量1.4k

点赞数

分类专栏：数据库文章标签：数据仓库

本文链接：https://blog.csdn.net/w2009211777/article/details/123950412

版权

数据库专栏收录该内容

10 篇文章 1 订阅

订阅专栏

一、TiDB整体架构

如图所示，TiDB有三个组件，分别是TiDB，PD，TiKV，每个组件都是可横向无限扩展的，因此，高可用易扩展得到了保障。

TiDB Server

TiDB Server 负责接收 SQL 请求，处理 SQL 相关的逻辑，并通过 PD 找到存储计算所需数据的 TiKV 地址，与 TiKV 交互获取数据，最终返回结果。 TiDB Server 是无状态的，其本身并不存储数据，只负责计算，可以无限水平扩展，可以通过负载均衡组件（如LVS、HAProxy 或 F5）对外提供统一的接入地址。

PD Server

Placement Driver (简称 PD) 是整个集群的管理模块，其主要工作有三个：一是存储集群的元信息（某个 Key 存储在哪个 TiKV 节点）；二是对 TiKV 集群进行调度和负载均衡（如数据的迁移、Raft group leader 的迁移等）；三是分配全局唯一且递增的事务 ID。

PD 是一个集群，需要部署奇数个节点，一般线上推荐至少部署 3 个节点。

TiKV Server

TiKV Server 负责存储数据，从外部看 TiKV 是一个分布式的提供事务的 Key-Value 存储引擎。存储数据的基本单位是 Region，每个 Region 负责存储一个 Key Range （从 StartKey 到 EndKey 的左闭右开区间）的数据，每个 TiKV 节点会负责多个 Region 。TiKV 使用 Raft 协议做复制，保持数据的一致性和容灾。副本以 Region 为单位进行管理，不同节点上的多个 Region 构成一个 Raft Group，互为副本。数据在多个 TiKV 之间的负载均衡由 PD 调度，这里也是以 Region 为单位进行调度。

二、TiDB存储原理

对于一个 Table 来说，需要存储的数据包括三部分：
1. 表的元信息
2. Table 中的 Row
3. 索引数据

1、存储：底层是使用RocksDB（Facebook开源的单机key-value数据库）进行存储。

2、数据复制及灾备：Raft协议。

3、以 Region 为单位，将数据分散在集群中所有的节点上，并且尽量保证每个节点上服务的 Region 数量差不多

三、AddReplica：TiDB是怎么做的？

是内部节点提供了一个接口，新增的节点（Learner）会调用内部的接口拉取Region的所有数据，当拉完之后，会将自身设置为Follwer角色；

另一种场景：如果是一个follower节点挂了（过会又好了），导致这个follower数据延迟较多，这种情况怎么补数据？也是通过节点提供的内部接口。

四、Learner

我们加了 Learner 这个角色，Learner 的功能也是我们贡献给 etcd 这个项目的。有了 Learner 之后，我们在扩容时不会先去加一个 Follower，而是增加一个 Learner 的角色，它不是 Follower，所以它只会同步数据不会投票，所以无论在做数据写入还是成员变更的时候都不会算上它。当同步完所有数据时（因为数据量大的时候同步时间会比较长），拿到所有数据之后，再把它变成一个 Follower，同时再把另一个我们想下线的 Follower 下掉就好了。这样就能极大的缩短同时存在 4 个 Follower 的时间，整个 Raft Group 的可用性就得到了提升。

小魏的博客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分布式存储原理：TiDB

一、TiDB整体架构如图所示，TiDB有三个组件，分别是TiDB，PD，TiKV，每个组件都是可横向无限扩展的，因此，高可用易扩展得到了保障。TiDB ServerTiDB Server 负责接收 SQL 请求，处理 SQL 相关的逻辑，并通过 PD 找到存储计算所需数据的 TiKV 地址，与 TiKV 交互获取数据，最终返回结果。 TiDB Server 是无状态的，其本身并不存储数据，只负责计算，可以无限水平扩展，可以通过负载均衡组件（如LVS、HAProxy 或 F5）对外提供统一的接
复制链接

扫一扫

专栏目录