flink clickhouse_深度 | 一条查询SQL的前世今生——ClickHouse 源码阅读

最新推荐文章于 2024-04-19 15:26:39 发布

weixin_39617702

最新推荐文章于 2024-04-19 15:26:39 发布

阅读量204

点赞数

Flink 从入门到精通系列文章

作者：逍凯，阿里云数据库实习开发工程师

注：以下分析基于开源 v19.15.2.2-stable 版本进行，社区最新版本代码改动较大，但是总体思路是不变的。

用户提交一条查询SQL背后发生了什么

在传统关系型数据库中，SQL处理器的组件主要包括以下几种：

• Query Parsing

负责进行词法和语法分析,把程序从人类高可读的格式(即SQL)转化成机器高可读的格式(AST,抽象语法树)。

词法分析指的是把SQL中的字符序列分解成一个个独立的词法单元——Token()。

语法分析指的是从词法分析器输出的token中识别各类短语，并构造出一颗抽象语法树。而按照构造抽象语法树的方向，又可以把语法分析分成自顶向下和自底向上分析两种。而ClickHouse采用的则是手写一个递归下降的语法分析器。

• Query Rewrite

即通常我们说的"Logical Optimizer"或基于规则的优化器(Rule-Based Optimizer,即RBO)。

其负责应用一些启发式规则，负责简化和标准化查询，无需改变查询的语义。

常见操作有:谓词和算子下推，视图展开，简化常量运算表达式，谓词逻辑的重写，语义的优化等。

• Query Optimizer

即通常我们所说的"Physical Optimizer"，负责把内部查询表达转化成一个高效的查询计划，指导DBMS如何去取表，如何进行排序，如何Join。如下图所示，一个查询计划可以被认为是一个数据流图，在这个数据流图中，表数据会像在管道中传输一样，从一个查询操作符(operator)传递到另一个查询操作符。

一个查询计划

• Query Executor

查询执行器，负责执行具体的查询计划，从存储引擎中获取数据并且对数据应用查询计划得到结果。

执行引擎也分为很多种，如经典的火山模型(Volcano Model)，还有ClickHouse采用的向量化执行模型(Vectorization Model)。

(图来自经典论文 Architecture Of Database System)

但不管是传统的关系型数据库，还是非关系型数据库，SQL的解析和生成执行计划过程都是大同小异的，而纵览ClickHouse的源代码，可以把用户提交一条查询SQL背后的过程总结如下：

1.服务端接收客户端发来的SQL请求，具体形式是一个网络包，Server的协议层需要拆包把SQL解析出来

2.Server负责初始化上下文与Network Handler，然后 Parser 对Query做词法和语法分析，解析成AST

3.Interpreter的 SyntaxAnalyzer 会应用一些启发式规则对AST进行优化重写

4.Interpreter的 ExpressionAnalyzer 根据上下文信息以及优化重写后的AST生成物理执行计划

5.物理执行计划分发到本地或者分布式的executor,各自从存储引擎中获取数据,应用执行计划

6.Server把执行后的结果以Block流的形式输出到Socket缓冲区,Client从Socket中读取即可得到结果

01 接收客户端请求

我们要以服务端的视角来出发，首先来看server.cpp大概做什么事情:

下面只挑选重要的逻辑:

• 初始化上下文

• 初始化Zookeeper(ClickHouse的副本复制机制需要依赖ZooKeeper)

• 常规配置初始化

• 绑定服务端的端口，根据网络协议初始化Handler，对客户端提供服务

左右滑动阅览

int Server::main { // 初始化上下文 global_context = std::make_unique(Context::createGlobal); global_context->setApplicationType(Context::ApplicationType::SERVER); // zk初始化 zkutil::ZooKeeperNodeCache main_config_zk_node_cache([&] { return global_context->getZooKeeper; }); //其他config的初始化 //... //绑定端口,对外提供服务 auto address = make_socket_address(host, port); socket.bind(address, /* reuseAddress = */ true); //根据网络协议建立不同的server类型 //现在支持的server类型有：HTTP,HTTPS,TCP,Interserver,mysql //以TCP版本为例: create_server("tcp_port

weixin_39617702

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
flink clickhouse_深度 | 一条查询SQL的前世今生——ClickHouse 源码阅读

Flink 从入门到精通系列文章作者：逍凯，阿里云数据库实习开发工程师注：以下分析基于开源 v19.15.2.2-stable 版本进行，社区最新版本代码改动较大，但是总体思路是不变的。01用户提交一条查询SQL背后发生了什么在传统关系型数据库中，SQL处理器的组件主要包括以下几种：• Query Parsing负责进行词法和语法分析,把程序从人类高可读的格式(即SQL)转化成机器高可读的格式(...
复制链接

扫一扫