ANTLR学习笔记一:概念理解

 

ANTLR学习笔记一:概念理解

 

一、什么是ANTLR。

ANTLR是ANother Tool for Language Recognition的缩写,

意为“另一种语言识别工具”,读作Antler。

它是一种解析器程序的代码生成器(作用类似于YACC),

使用LL(*)方法,即从输入字符串的左到右,

用候选项的最左符号匹配输入(即与所有以终结符开头的候选项匹配),

每次向前(右)看n个符号(好像计算机下棋那样)。

 

二、ANTLR的特点

ANTLR作为一种编译器的制作工具,具有很多有用的功能和特点。

1. 使用语法(.g文件)作为输入,生成语言识别器的代码。

2. 支持生成各种语言的代码(只需修改与实现语言相关的部分)。

3. 自身用Java实现。

4. 使用上下文无关语法。

(即语法的所有产生式/规则的左侧总是非终结符,

简单说就是,一个被识别的非终结符无论放在什么地方,

都可以用已有的方式推导)

5. 语法基于EBNF(扩展的巴科斯范式)。

这意味着,在ANTLR中既可以使用BNF元语言符号

冒号(:)表示推导,

竖线(|)表示或,

也可以使用扩展的元语言符号如

星号(*)表示出现0次或以上。

问号(?)表示出现0次或1次。

加号(+)表示出现1次或以上。

关于EBNF更多介绍可以参考这里:

http://hi.baidu.com/helloweenpad/blog/item/f5b6f701a2694e16738b655e.html

6. 可以生成多种解析器(通过标注来指定),包括:

文法解析器(常用于把符号保存为AST的非线性结构中)。

词法解析器(把输入切割成线性结构的符号)。

树解析器(输入是树结构数据,即AST,抽象语法树)。

组合词法解析器(文法和词法解析同时进行)。

它比同类工具更易于使用。

7. 如果不嵌入源代码,所生成的代码将只检查输入是否可以被识别(即语法检查)。

如果嵌入源代码,可以对识别的语法元素执行相应的动作。

利用嵌入的代码可以获取符号表或中间语言指令(即解析器或编译器)。

8. 丰富的参考资料。官方收集了很多语法源文件。

见http://www.antlr.org/grammar/list

9. 有相关的辅助开发工具和Eclipse插件。

10. 更详细请参考官方网站

http://www.antlr.org/

或英文wiki

http://en.wikipedia.org/wiki/ANTLR

 

三、什么是上下文无关语法和巴科斯范式

ANTLR的语法是基于EBNF的上下文无关语法。

在形式语言的范畴中,上下文无关语法是较弱的文法

(有些语法可以被上下文相关语法描述,

但不能被上下文无关语法描述)。

另外还有更弱的右线性文法(即正则语法)

由于这些特点,普遍使用上下文无关语法来编写计算机语言的

文法解析器(即递归推导),

用更弱的正则语法编写词法解析器来切割符号(即非递归推导)。

在形式上上下文无关语法被写成四元式,即

终结符集合、非终结符集合、(单个)开始符、产生式集合(有限)。

其中非终结符表示可以再分的语法元素,用大写字母表示;

终结符表示不可以再分的元素,用小写字母表示

(有时可以直接写出终结符的字符串内容,或用引号引用,如用-或"-"直接表示减号)

开始符属于非终结符,表示语法推导的开始,一般用S表示。

产生式表示一系列的可选择推导(一般右边个数比左边的个数多)

如果多个产生式的左边相同,可以用竖线(|)合并为一条产生式,

合并后用或分割的符号称为候选式。

巴科斯范式是上下文无关语法的描述语言。

通常只列出产生式和开始符S。

在ANTLR中(习惯上?)词法符号用全大写,文法符号用全小写,

开始符一般放在开头(开始符会变成public方法,被外部程序调用)。

作为终结符的运算符可以用单引号引用,直接写在产生式右边。

 

四、什么是LL(k)

一种递归下降的分析方法。

第一个L表示从左往右。

第二个L表示最左匹配。

k表示向前看k个符号。

所谓向前看,是指向右看k个符号的内容,但不读入。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值