前言
最近在集中学习mysql源码,刚好分了几个主题,涉及到词法解析、语法解析、查询器、优化器等。刚好把准备的PPT内容摘出来整理成相应的文章。
Mysql版本: 8.0.20
调试工具 : lldb
系统环境 : MacOS 10.14.3
在了解词法解析之前,我们带着几个问题来切入:
(1)什么是词法解析?
(2)Mysql 8.0.20词法解析有什么优化?
(3)Mysql 8词法解析都有什么过程?
1.什么是词法解析?
词法分析(lexical analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。进行词法分析的程序或者函数叫作词法分析器(Lexical analyzer,简称Lexer),也叫扫描器(Scanner)。词法分析器一般以函数的形式存在,供语法分析器调用。
词法分析阶段是编译过程的第一个阶段,是编译的基础。这个阶段的任务是从左到右一个字符一个字符地读入源程序,即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。词法分析程序实现这个任务。词法分析程序可以使用Lex等工具自动生成。
词法分析是编译程序的第一个阶段且是必要阶段;词法分析的核心任务是扫描、识别单词且对识别出的单词给出定性、定长的处理;实现词法分析程序的常用途径:自动生成,手工生成。
2.词法解析
2.1 词法解析状态机
词法解析状态机是在词法解析的扫描阶段执行的过程,下图2-1-1是状态解析token的执行过程:
状态机的主要用途就是解析token时的执行过程,比如MY_LEX_IDENT状态机会循环匹配字符后,解析字符并返回对应的token。对应状态机备注MY_LEX_START开始解析token
MY_LEX_CHAR解析单个字符例如*、:、;
MY_LEX_IDENT解析字符串,匹配关键词,例如“table”、“select” 等
MY_LEX_IDENT_SEP找到字符'.'
MY_LEX_IDENT_START从'.'开始解析token
MY_LEX_REAL不完全实数
MY_LEX_HEX_NUMBERhex字符串
MY_LEX_BIN_NUMBERbin字符串
MY_LEX_CMP_OP不完全比较运算符
MY_LEX_LONG_CMP_OP不完全比较运算符
MY_LEX_STRING字符串
MY_LEX_COMMENTComment
MY_LEX_END结束
MY_LEX_NUMBER_IDENT数字
MY_LEX_INT_OR_REAL完全整数或不完全实数
MY_LEX_REAL_OR_POINT解析.返回不完全实数,或者字符'.'
MY_LEX_BOOL布尔
MY_LEX_EOL如果是eof,则设置状态end结束,
MY_LEX_LONG_COMMENT长注释
MY_LEX_END_LONG_COMMENT备注结束
MY_LEX_SEMICOLON分隔符;
MY_LEX_SET_VAR检查:=
MY_LEX_USER_END结束'@'
MY_LEX_HOSTNAME解析hostname
MY_LEX_SKIP空格
MY_LEX_USER_VARIABLE_DELIMITER引号字符
MY_LEX_SYSTEM_VAR例如解析user@hostname,解析到@
MY_LEX_IDENT_OR_KEYWORD判断返回字符串状态或者键盘键值
MY_LEX_IDENT_OR_HEXhex-数字
MY_LEX_IDENT_OR_BINbin-数字
MY_LEX_IDENT_OR_NCHAR判断返回字符状态,或字符串状态
MY_LEX_STRING_OR_DELIMITER判断返回字符串状态或者空格字符状态
2.2 调试解析源码
我们可以一起来跟一下源码,如果不会安装编译可以看一下我之前的文章
《【Mysql源码分析】MySQL为什么有时候会选错索引及成本计算》
https://blog.csdn.net/byxiaoyuonly/article/details/107651106
我们开始调试,首先要先启动下mysql8.0.20。然后准备两个终端:一个终端用于操作mysql语句、另外一个终端用于调试使用,如图2-2-1。