EBNF扩展巴科斯范式学习总结
-
是一种描述计算机编程语言且与上下文无关(没有前置条件)的语法的一种语法表达式。简而言之,就是描述语言语法的规范。
-
EBNF的基本语法形式如下:
左手边(LeftHandSide) = 右手边(RightHandSide).
-
左手边叫非终端符号,也就说他还可以被其他表达式引用
右手边是非终端的组成。 -
了解一个概念[终端符号与非终端符号], 终端符号就是可以认为是原子符号,或者认为是常量池量的常量,他是用来描述语法的最小粒子概念, 终端可以分为用户自定义的终端符号和规范中定义的终端符号,用户子定义的终端符号 ""引号 括起来,规范定义的引号会用粗体现实,他们常常出现在RightHandSide里,用来描述 一个非终端的组成, 形成 一个 完整production 定义。
-
production 就是一个完整的语法定义了。
比如
aa= "A"
bb = 3 * aa, "B";
定义了一个语法 AAAB
其中aa 与 bb是语法的名称,他是一个非终端
"A" "B" 是自定义的终端
3 * 是一个规范定义的终端,表示 重复3次
, 也是一个规范定义的终端,表示 连接符,可以看作是字符串concat函数
如下是ISO/IEC 14977 规范定义的终端符号
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SSQp2hDq-1599655433786)(:/aaba21f3e30342879c6da3c5148cfcc9)]
这些符号分为两类,一类是具有优先级的连接符
另一类是具有改变优先级的括号
*repetition-symbol(重复符)
-except-symbol(除去符)
, concatenate-symbol(连接符)
| definition-separator-symbol
= defining-symbol(定义符)
; terminator-symbol(结束符)
. terminator-symbol(结束符)
' first-quote-symbol first-quote-symbol ' (* 引用 *)
" second-quote-symbol second-quote-symbol " (* 引用 *)
(* start-comment-symbol end-comment-symbol *) (* 注释 *)
( start-group-symbol end-group-symbol ) (* 分组 *)
[ start-option-symbol end-option-symbol ] (* 可选 *)
{ start-repeat-symbol end-repeat-symbol } (* 重复 *)
? special-sequence-symbol special-sequence-symbol ? (* 特殊序列 *)
-
上面这些都很抽象,我们大概了解一下,关键我们掌握了,终端和非终端的概念,以及就像我们当初学习编程语言意义,掌握一些类似指令般的符号即可。
-
之后我们可以通过学习一些例值,正如我们当初学习hello world一样掌握EBNF的规律即可。
示例
以下提供一些示例以直观的理解EBNF。
digit excluding zero = "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9" ;
digit = "0" | digit excluding zero ;
natural number = digit excluding zero, { digit } ;
integer = "0" | [ "-" ], natural number ;
digit excluding zero 可以是 1到9任意一个字符,digit则扩展为0到9任意一个字符。
natural number可以是1、2、…、10、…、12345、…,因为{}代表重复任意次,包括0次。
integer则可以是0或者可能带个负号的自然数。
引用自 https://blog.csdn.net/lin_strong/article/details/78583543
非终端符号可以是任意你喜欢的名字,而终端符号则要不然是出现在被描述的语言中的标识符,要不然就是任何被引号括起来的字符序列。
然后Factor(参数)可以是终端字符、非终端字符、三种括号中任意一种括起来的表达式。
Term(术语)由起码一个Factor组合而成……
-
接下来我们看看如何利用EBNF定义一门编程语的语法,我们知道所有程序写出来都是有一个模板的,就好比Maven 代码生成器的archetype 骨架描述语言 (不了解maven archetype 骨架的自行学习,你会大有收获)
-
定义好骨架后,我们将程序员输入的代码用词法分析器拆成一个一个的单词按顺序放入数组中。
-
然后我们会用EBNF语法定义去匹配词法分析器得到的token数组,这个过程则是语法分析器做的事情了。如果命中语法,则会将其构造成一个AST对象,这个对象也就是语法分析器的产物了。
(如果不了解这个词法分析器和语法分析器的编译器原理的概念,请跳转https://blog.csdn.net/u010833547/article/details/108477528)
- 到这里我们以及知道EBNF在编译器工作过程中的作用,下面我们来看看一个用EBNF描述的一个只能赋值的类PASCAL编程语言:
引用自: https://blog.csdn.net/lin_strong/article/details/78583543
(* a simple program syntax in EBNF − Wikipedia *)
program = 'PROGRAM', white space, identifier, white space,
'BEGIN', white space,
{ assignment, ";", white space },
'END.' ;
identifier = alphabetic character, { alphabetic character | digit } ;
number = [ "-" ], digit, { digit } ;
string = '"' , { all characters - '"' }, '"' ;
assignment = identifier , ":=" , ( number | identifier | string ) ;
alphabetic character = "A" | "B" | "C" | "D" | "E" | "F" | "G"
| "H" | "I" | "J" | "K" | "L" | "M" | "N"
| "O" | "P" | "Q" | "R" | "S" | "T" | "U"
| "V" | "W" | "X" | "Y" | "Z" ;
digit = "0" | "1" | "2" | "3" | "4" | "5" | "6" | "7" | "8" | "9" ;
white space = ? white space characters ? ;
all characters = ? all visible characters ? ;
对应的语法正确的程序如下:
PROGRAM DEMO1
BEGIN
A:=3;
B:=45;
H:=-100023;
C:=A;
D123:=B34A;
BABOON:=GIRAFFE;
TEXT:="Hello world!";
END.
参考
[1] Freescale semiconductor. HC(S)08/RS08 and S12(X) Build Tools Utilities Manual. 2010
[2] Extended Backus–Naur form. https://en.wikipedia.org/wiki/Extended_Backus%E2%80%93Naur_form
[3] https://blog.csdn.net/lin_strong/article/details/78583543