bison编译学习
1:在实现时,bison 会创建一组状态,每个状态用来表示规则中的一个可能位置,同时还会维护一个堆栈,这个堆栈叫做分析器堆栈 (parser stack)。
每次读入一个终结符 (token),它会将该终结符及其语意值一起压入堆栈,把一个 token 压入堆栈通常叫做移进 (shifting)。
当已经移进的后 n 个终结符可以与一个左侧的文法规则相匹配时,这个 n 各终结符会被根据那个规则结合起来,同时将这 n 个终结符出栈,左侧的符号如栈,这叫做归约 (reduction)。
2: 文件格式
两个文件的格式基本类似,分成三部分,都是通过 %% 进行分割,如下所示。
... definitions ... (C的定义)
%%
... rules ... (规则)
%%
... subroutines ... (C的自定义函数)
3:编译所需两类文件 .l文件 .y文件
flex --outfile=hello.yy.c hello.l
bison -d --output=hello.tab.c hello.y
gcc hello.tab.c hello.yy.c -o hello
4: 规则
定了语法的产生以及语义的动作,一般规则为 Result: Components {...};
其中 Result 为非终结符,Components 可以是终结符、非终结符、语义动作。
在 {...} 中,通过 C 语言实现语义的动作,$$ 表示 Result
5:一些常见的终结符
%start foobar
修改默认的开始规则,例如从foobar规则开始解析,默认从第一条规则开始
%token TOKEN1 TOKEN2 TOKEN3 ...
通常用来指定从 flex 解析获取的符号类型,如上,可以是终结符或者标记。
%left,%right,%nonassoc
类似于终结符,不过同时具有某种优先级和结核性,分别表示左结合、右结合、不结合 (也就是终结符不能连续出现,例如<,此时不允许出现a<b<c这类句子)。
优先级与其定义的顺序相关,先定义的优先级低,最后定义的优先级最高,同时定义的优先级相同。
6:终结符合非终结符
通过 Flex 生成的符号称为终结符 (Terminals) 或者标记 (Tokens),
通过它们装配而来的内容称为非终结符 (Non-Terminals)。
Bison 会调用 Flex 的 yylex() 来获得标志 (Token),其中与标志对应的值由 Lex 放在变量 yylval 中,而 yylval 的类型由
YYSTYPE 决定,默认是 int 。
也就是说,在 Bison 调用 yylex() 返回类型后,同时需要将对应的值通过 yylval 将值从 Flex 传递到 Bison 中。
7:%union (用来存放类型)
如果有多个值类型,则需要通过 %union 列举出所有的类型,此时 yylval 的类型就是上述的 union 结构体。
需要为每个符号定义相对的类型,其中终结符使用 %token,非终结符使用 %type 来定义。
%union {
long value; // 这个可以看做union yylval 中的value成员
}
%token <value> NUMBER
%type <value> expression
8: 一条规则中的一些使用技巧
在 Bison 的规则中,可以通过符号名引用表达式的组成部分,其中返回值为 $$ ,其它分别为 $1 到 $N 。
expression:
NUMBER '+' NUMBER { $$ = $1 + $3; }
其中 $2 对应的是 + 号,只作为一个占位符,实际上没有任何意义。
9:yacc 一种LR解析器,类似于一个有限的状态机,有所不同的是,Yacc 同时会有一个栈保存终止符,可以 pop 也可以 push ,这也就是为什么能支持上下文无关的语法。
10;递进 规约
Yacc 就是不断的执行递进和规约,每次都是不断地匹配语法右侧规则。
递进 (Shitf) 就是不断地读取符号,并添加到栈中;
规约 (Reduce) 当最上层的栈满足某个语法规则时 (如 A->x y z) ,那么就会执行规约 (Reduce) 操作,也就是将 x y z 弹出,将 A 压入。
总结: 递进就是等待满足条件的语法,规约则是已经找到了。
11:冲突 (%error-verbose 显示详细的错误信息)
A) Shift-Reduce;B) Reduce-Reduce;如果要查看具体的冲突,可以通过 -v 参数输出调试信息,也就是 y.output 文件。
递进/规约冲突(产生式的右部是另一产生式的前缀):现象就是当前的token下一步可以移入可以规约。
规约/规约冲突(不同的产生式有相同的右部或产生式的右部是另一产生式的后缀):现象就是下一步都要规约于不同的非终结符。
12: 在Parser中
Lex和Yacc(GNU下Flex和Bison)生成的代码来进行词法和语法分析并生成分析树
13:postgres中关于语法的文件
gram.y 定义语法结构,bison编译后生成gram.y和gram.h
scan.l 定义词法结构,flex编译后生成scan.c
kwlist.h 关键字列表,需要按序排列
check_keywords.pl linux下会调用其进行关键字检查(顺序、合法性等)
14: 相关资料