Postgres 之 Bison编译相关学习

bison编译学习

1:在实现时,bison 会创建一组状态,每个状态用来表示规则中的一个可能位置,同时还会维护一个堆栈,这个堆栈叫做分析器堆栈 (parser stack)。
每次读入一个终结符 (token),它会将该终结符及其语意值一起压入堆栈,把一个 token 压入堆栈通常叫做移进 (shifting)。
当已经移进的后 n 个终结符可以与一个左侧的文法规则相匹配时,这个 n 各终结符会被根据那个规则结合起来,同时将这 n 个终结符出栈,左侧的符号如栈,这叫做归约 (reduction)。

2: 文件格式
两个文件的格式基本类似,分成三部分,都是通过 %% 进行分割,如下所示。

... definitions ...   (C的定义)
%%
... rules ...          (规则)
%%
... subroutines ...   (C的自定义函数)


3:编译所需两类文件 .l文件 .y文件

flex --outfile=hello.yy.c hello.l
bison -d --output=hello.tab.c hello.y
gcc hello.tab.c hello.yy.c -o hello


4: 规则
定了语法的产生以及语义的动作,一般规则为 Result: Components {...};
其中 Result 为非终结符,Components 可以是终结符、非终结符、语义动作。
在 {...} 中,通过 C 语言实现语义的动作,$$ 表示 Result

5:一些常见的终结符
%start foobar
  修改默认的开始规则,例如从foobar规则开始解析,默认从第一条规则开始
%token TOKEN1 TOKEN2 TOKEN3 ...
  通常用来指定从 flex 解析获取的符号类型,如上,可以是终结符或者标记。
%left,%right,%nonassoc
  类似于终结符,不过同时具有某种优先级和结核性,分别表示左结合、右结合、不结合 (也就是终结符不能连续出现,例如<,此时不允许出现a<b<c这类句子)。
  优先级与其定义的顺序相关,先定义的优先级低,最后定义的优先级最高,同时定义的优先级相同。
  

6:终结符合非终结符
通过 Flex 生成的符号称为终结符 (Terminals) 或者标记 (Tokens),
通过它们装配而来的内容称为非终结符 (Non-Terminals)。

Bison 会调用 Flex 的 yylex() 来获得标志 (Token),其中与标志对应的值由 Lex 放在变量 yylval 中,而 yylval 的类型由
YYSTYPE 决定,默认是 int 。
也就是说,在 Bison 调用 yylex() 返回类型后,同时需要将对应的值通过 yylval 将值从 Flex 传递到 Bison 中。


7:%union (用来存放类型)
如果有多个值类型,则需要通过 %union 列举出所有的类型,此时 yylval 的类型就是上述的 union 结构体。
需要为每个符号定义相对的类型,其中终结符使用 %token,非终结符使用 %type 来定义。
%union {
    long value;   // 这个可以看做union yylval 中的value成员
}
%token <value>  NUMBER
%type <value>   expression


8: 一条规则中的一些使用技巧
在 Bison 的规则中,可以通过符号名引用表达式的组成部分,其中返回值为 $$ ,其它分别为 $1 到 $N 。
expression:
    NUMBER '+' NUMBER { $$ = $1 + $3; }
    其中 $2 对应的是 + 号,只作为一个占位符,实际上没有任何意义。

9:yacc 一种LR解析器,类似于一个有限的状态机,有所不同的是,Yacc 同时会有一个栈保存终止符,可以 pop 也可以 push ,这也就是为什么能支持上下文无关的语法。


10;递进 规约
Yacc 就是不断的执行递进和规约,每次都是不断地匹配语法右侧规则。
递进 (Shitf) 就是不断地读取符号,并添加到栈中;
规约 (Reduce) 当最上层的栈满足某个语法规则时 (如 A->x y z) ,那么就会执行规约 (Reduce) 操作,也就是将 x y z 弹出,将 A 压入。
总结: 递进就是等待满足条件的语法,规约则是已经找到了。

11:冲突   (%error-verbose 显示详细的错误信息)
A) Shift-Reduce;B) Reduce-Reduce;如果要查看具体的冲突,可以通过 -v 参数输出调试信息,也就是 y.output 文件。

递进/规约冲突(产生式的右部是另一产生式的前缀):现象就是当前的token下一步可以移入可以规约。

规约/规约冲突(不同的产生式有相同的右部或产生式的右部是另一产生式的后缀):现象就是下一步都要规约于不同的非终结符。

12: 在Parser中
Lex和Yacc(GNU下Flex和Bison)生成的代码来进行词法和语法分析并生成分析树


13:postgres中关于语法的文件
gram.y    定义语法结构,bison编译后生成gram.y和gram.h
scan.l    定义词法结构,flex编译后生成scan.c
kwlist.h    关键字列表,需要按序排列
check_keywords.pl    linux下会调用其进行关键字检查(顺序、合法性等)

14: 相关资料

postgresql内核语法解析器详解_postgres20的博客-CSDN博客_postgresql内核解析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值