TiDB PCTA认证备考笔记-01-架构概述
TiDB体系架构概述
1.TiDB体系架构特点
- 水平扩展或者缩容
- 金融级高可用
- 实时HTAP
- 云原生的分布式数据库
2.TiDB Server
一条语句发过来,由TiDB Server进行解析、编译、优化这条SQL,并且生成执行计划,在拿到执行计划后,到TiKV或者Tilash中存取数据。
-
优点
- 可横向扩展:在高并发环境中,TiDB节点会话太多时,可增加节点,分走部分会话,减少并发的压力。
- 无状态,数据不落地,本身不会存储数据,可扩展。
-
功能
- 处理客户端的连接
- SQL语句的编译和编译
- 关系型数据与KV的转化
- SQL语句的执行
- 执行Online DDL
- 垃圾回收(GC)
3.TiKV
建立的数据表转化为一个一个的Region(96M-144M之间),数据表被切割成多个Region,每个Region根据Raft协议,创建多个副本,形成高可用性,打散存储在各个节点,可水平扩缩容。
- 功能:
- 数据持久化
- 副本的强一致性和高可用性
- MVCC(多版本并发控制)
- 分布式事务支持
- Coprocessor(算子下推)
数据的更改存储在RocksDB Raft中(有2个RocksDB库),由RocksDB Raft存到RocksDB KV中。
在RocksDB上一层增加Raft协议,Raft协议会将更改应用到RocksDB中Region之上,在通过leader的Region将自身的修改内容同步到其他副本(一致性)。
在Raft协议之上,增加MVCC来保障读取正常进行(在修改数据时,可以读取数据)
在MVCC之上,增加事务模型(分布式),两段式提交
算子下推:在每个TiKV中过滤聚合等操作,在TiKV节点完成后交给TiDB Server
4.TiFlash
在TiFlash中的数据与TiKV中存储的数据相同,只不过一个是列存,一个是行存(对于分析类列存大表有优势)。
- 功能
- 异步复制
- 一致性
- 列式存储提高分析查询效率
- 业务隔离
- 智能选择(TiDB Server SQL优化器所带功能)
5.PD(Placement Driver)
被称为整个集群的大脑,在TiDB生成执行计划后,需要知道这张表中的数据在那个TiDB节点,以及包含哪些Region(表被切割成多个Region存放在多个TiKV中)。
TiDB上的时间用TSO(一个时间戳,随着时间的增长不断增加)来进行标识,每条语句开始执行时,都会用一个TSO来标识开始时间。如果是一个事务,在事务执行完后必定会发生提交,提交时也会获得一个结束的TSO。
对于这个开始时间和结束时间的TSO,也是由PD来进行提供。
- 功能
- 整个集群TiKV的元数据存储
- 分配全局ID和事务ID
- 生成全局时间戳TSO
- 收集集群信息,进行调度
- 提供TiDB Dashboard服务