Antlr

目录

 

Antlr是什么?

Antlr能干什么?

传统解析器工作原理是什么?

Antrl 语法规则文件

ANTLR两种遍历分析树的机制

Parse-Tree Listeners

Parse-Tree Visitor


 

Antlr是什么?

ANTLR(另一种语言识别工具)是功能强大的解析器生成器,用于读取,处理,执行或翻译结构化文本或二进制文件。它被广泛用于构建语言,工具和框架。ANTLR从语法中生成一个解析器,该解析器可以构建和遍历解析树。

ANTLR (ANother Tool for Language Recognition) is a powerful parser generator for reading, processing, executing, or translating structured text or binary files. It's widely used to build languages, tools, and frameworks. From a grammar, ANTLR generates a parser that can build and walk parse trees.

 

Antlr能干什么?

ANTLR能够根据用户定义的语法文件自动生成词法分析器和语法分析器,并将输入文本处理为语法分析树。这一切都是自动进行的,所需的仅仅是一份描述该语言的语法文件

ANTLR自动生成的编译器高效、准备,能够将开发者从繁杂的编译理论中解放出来,集中精力处理自己的业务逻辑。ANTRL4引入的自动语法分析树创建与遍历机制,极大地提高了语言识别程序的开发效率。时至今日,仍然是Java世界中实现编译器的不二之选,同时,它也对其他编程语言也提供了支持。

典型应用如下:

1、编程语言处理

识别和处理编程语言是 Antlr 的首要任务,编程语言的处理是一项繁重复杂的任务,为了简化处理,一般的编译技术都将语言处理工作分为前端和后端两个部分。其中前端包括词法分析、语法分析、语义分析、中间代码生成等若干步骤,后端包括目标代码生成和代码优化等步骤。

Antlr 致力于解决编译前端的所有工作。使用 Anltr 的语法可以定义目标语言的词法记号和语法规则,Antlr 自动生成目标语言的词法分析器和语法分析器;此外,如果在语法规则中指定抽象语法树的规则,在生成语法分析器的同时,Antlr 还能够生成抽象语法树;最终使用树分析器遍历抽象语法树,完成语义分析和中间代码生成。整个工作在 Anltr 强大的支持下,将变得非常轻松和愉快。

2、文本处理

当需要文本处理时,首先想到的是正则表达式,使用 Anltr 的词法分析器生成器,可以很容易的完成正则表达式能够完成的所有工作;除此之外使用 Anltr 还可以完成一些正则表达式难以完成的工作,比如识别左括号和右括号的成对匹配等。

 

传统解析器工作原理是什么?

如果一个程序能够分析计算或者执行语句,我们就把它称之为解释器(interpreter)。解释器需要识别出一门特定的语言的所有的有意义的语句,词组和子词组。识别一个词组意味着我们可以将它从众多的组成部分中辨认和区分出来。

比如我们会把sp=100;识别成赋值语句, 这意味着我们能够辨识出sp是被赋值的目标,100则是要被赋予的值。我们也都知道我们在学习英语的时候,识别英语语句,需要辨认出一段对话的不同部分,例如主谓宾。在识别成功之后,程序还能执行适当的操作。

识别语言的程序被称为语法分析器(parser)或者句法分析器(syntax analyzer),syntax是指约束语言中的各个组成部分之间关系的规则。grammar是一系列规则的集合,每条规则表述出一种词汇结构。ANTLR就是能够将其转成如同经验丰富的开发者手工构建的一般的语法分析器(ANTLR是一个能够生产其他程序的程序)

1、语法解析器

语法解析器是传统解析器重要组件,语法解析器工作流程包括词法分析和语法分析两个阶段。

词法分析,主要负责将符号文本分组成符号类tokens,把输入的文本转换成词法符号的程序称为词法分析器(lexer);

语法解析,目标就是构建一个语法解析树。语法解析的输入是tokens,输出就是一颗语法解析树。

                                                  语法分析示例

语法分析树的内部节点是 词组名,这些名字用于识别它们的子节点,并可以将子节点归类。根节点是比较抽象的一个名字,在这里是 stat(statement)。

2、解析方法 

根据推导策略的不同,语法解析分为LL与LR两种:LR自低向上(bottom-up)的语法分析方法;LL是自顶向下(top-down)的语法分析方法。两类分析器各有其优势,适用不同的场景,很难说谁要更好一些。普遍的说法是LR可以解析的语法形式更多LL的语法定义更简单易懂。Antrl就是一种自顶向下的解析器;

 

Antrl 语法规则文件

以一个计算器的规则文件做示例:


grammar Cal;

prog: stat+; //一个程序由至少一条语句组成

/*为了以后的运算的方便性,我们需要给每一步规则打上标签,标签以”#”开头,出现在每一条规则的右边。打上标签后,antlr会为每一个规则都生成一个事件*/

stat: ID'='expr ';'#Assign //变量赋值语句

|'print''('expr ')'';'#printExpr   //输出语句

;

expr: expr op=('*'|'/') expr #MulDiv  //表达式可以是表达式之间乘除

| expr op=('+'|'-') expr #AddSub  //表达式可以是表达式之间加减

| NUM #NUM   //表达式可以是一个数字

| ID #ID //表达式可以是一个变脸

|'('expr ')'#parens    //表达式可以被括号括起来

;

MUL:'*';

DIV:'/';

ADD:'+';

SUB:'-';

ID: [a-zA-Z][a-zA-Z0-9]*; //变量可以是数字和字母,但必须以字母开头

//负数必须要用"()"括起来

NUM: [0-9]+   //正整数

|'(''-'[0-9]+ ')'//负整数

| [0-9]+'.'[0-9]+   //正浮点数

|'(''-'[0-9]+'.'[0-9]+ ')'//负浮点数

;
WS: [ \t\r\n] -> skip;   //跳过空格、制表符、回车、换行

 


Antlr文法概念中的一些关键概念。文法由一组描述语法的规则组成。其中包括词法与语法规则。语法规则是以小写字母组成。如prog,stat。词法规则由大写字母组成。如ID:[a-z A-Z]+。通过使用 | 运算符来将不同的规则分割,还可以使用括号构成子规则。

 

ANTLR两种遍历分析树的机制

默认情况下,ANTLR使用内建的遍历器访问生成的语法分析树,并为每个遍历时可能触发的事件生成一个语法分析树监听器接口 (ANTLR generates a parse-tree listener interface) 。除了监听器的方式,还有一种遍历语法分析树的方式:访问者模式(vistor pattern);

Parse-Tree Listeners

为了将遍历树时触发的事件转化为监听器的调用,ANTLR提供ParseTreeWalker类。我们可以自行实现ParseTreeListener的接口,在其中填充自己的逻辑。ANTLR为每个语法文件生成一个ParseTreeListener的子类,在该类中,语法的每条规则都有对应的enter方法和exit方法。

层次遍历(先序遍历)访问

层次遍历(先序遍历)访问

监听器方式的优点在于,回调是自动进行的。我们不需要编写对语法分析树的遍历代码,也不需要让我们的监听器显式地访问子节点

Parse-Tree Visitors

有时候,我们希望控制遍历语法分析树的过程,通过显式的方法调用来访问子节点。语法中的每条规则对应接口中的一个visit方法。

代码demo

ParseTree tree = ... ;// tree is result of parsingMyVisitor v =newMyVisitor();v.visit(tree);

ANTLR内部为访问者模式提供的支持代码会在根节点处调用visitStat方法,接下来,visitStat方法的实现将会调用visit方法,并将所用的子节点作为参数传递给它,从而继续遍历的过程;

Parse-Tree Visitor

为了更好的使用访问者模式我们用以下针对每个规则加了标签的语法文件来说明:


grammar LabeledExpr;//rename to distinguish from Expr.g4

prog:stat+ ;

stat    :    expr NEWLINE                # printExpr

          |     ID '=' expr NEWLINE      # assign

          |     NEWLINE                        # blank

          ;

expr    :    expr op=('*'|'/') expr          # MulDiv

           |    expr op=('+'|'-') expr          # AddSub

           |    INT                                    # int

           |  ID                                          # id

           |'('expr')'                                   # parens

           ;        

MUL :'*';   //assigns token name to'*'used aboveingrammar

DIV :'/';

ADD :'+';

SUB :'-';

ID  :  [a-zA-Z]+ ;//match identifiers

INT :  [0-9]+ ;//match integers

NEWLINE:'\r'?'\n';//returnnewlines to parser (isend-statement  signal)

WS  :  [ \t]+ -> skip ;//toss out whitespace

 

ANTLR是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。它被广泛应用于学术领域和工业生产实践,是众多语言、工具和框架的基石。Twitter搜索使用ANTLR进行语法分析,每天处理超过20亿次查询;Hadoop生态系统中的Hive、Pig、数据仓库和分析系统所使用的语言都用到了ANTLR;Lex Machina将ANTLR用于分析法律文本;Oracle公司在SQL开发者IDE和迁移工具中使用了ANTLR;NetBeans公司的IDE使用ANTLR来解析C++;Hibernate对象-关系映射框架(ORM)使用ANTLR来处理HQL语言。   除了这些鼎鼎大名的项目之外,还可以利用ANTLR构建各种各样的实用工具,如配置文件读取器、遗留代码转换器、维基文本渲染器,以及JSON解析器。我编写了一些工具,用于创建数据库的对象-关系映射、描述三维可视化以及在Java源代码中插入性能监控代码。我甚至为一次演讲编写了一个简单的DNA模式匹配程序。   一门语言的正式描述称为语法(grammar),ANTLR能够为该语言生成一个语法分析器,并自动建立语法分析树——一种描述语法与输入文本匹配关系的数据结构。ANTLR也能够自动生成树的遍历器,这样你就可以访问树中的节点,执行自定义的业务逻辑代码。   本书既是ANTLR 4的参考手册,也是解决语言识别问题的指南。你会学到如下知识:   识别语言样例和参考手册中的语法模式,从而编写自定义的语法。   循序渐进地为从简单的JSON到复杂的R语言编写语法。同时还能学会解决XML和Python中棘手的识别问题。   基于语法,通过遍历自动生成的语法分析树,实现自己的语言类应用程序。   在特定的应用领域中,自定义识别过程的错误处理机制和错误报告机制。   通过在语法中嵌入Java动作(action),对语法分析过程进行完全的掌控。   本书并非教科书,所有的讨论都是基于实例的,旨在令你巩固所学的知识,并提供语言类应用程序的基本范例。   本书的读者对象本书尤其适用于对数据读取器、语言解释器和翻译器感兴趣的开发者。虽然本书主要利用ANTLR来完成这些工作,你仍然可以学到很多有关词法分析器和语法分析器的知识。初学者和专家都需要本书来高效地使用ANTLR 4。如果希望学习第三部分中的高级特性,你需要先了解之前章节中的ANTLR基础知识。此外,读者还需要具备一定的Java功底。   Honey Badger版本ANTLR 4的版本代号是“Honey Badger”,这个名字来源于一段著名的YouTube短片The Crazy Nastyass Honey Badger(网址为:http://www.youtube.com/watch?v=4r7wHMg5Yjg)中的勇敢无畏的主角——一只蜜獾。它敢吃你给它的任何东西,根本不在乎那是什么!   ANTLR 4有哪些神奇之处ANTLR 4引入了一些新功能,降低了入门门槛,使得语法和语言类应用程序的开发更加容易。最重要的新特性在于,ANTLR 4几乎能够处理任何语法(除了间接左递归,稍后会提到)。在ANTLR将你的语法转换成可执行的、人类可读的语法分析代码的过程中,语法冲突或者歧义性警告不会再出现。   无论多复杂的语法,只要你提供给ANTLR自动生成的语法分析器的输入是合法的,该语法分析器就能够自动识别之。当然,你需要自行保证该语法能够准确地描述目标语言。   ANTLR语法分析器使用了一种名为自适应LL(*)或者ALL(*)(读作“all star”)的新技术,它是由我和Sam Harwell一起开发的。ALL(*)是ANTLR 3中的LL(*)的扩展,在实际生成的语法分析器执行前,它能够在运行时以动态方式对语法执行分析,而非先前的静态方式。由于ALL(*)语法分析器能够访问实际的输入文本,通过反复分析语法的方式,它最终能够决定如何识别输入文本。相比之下,静态分析必须考虑所有可行的(无限长的)输入序列。   在实践中,拥有ALL(*)意味着你无须像在其他语法分析器生成工具(包括ANTLR 3)中那样,扭曲语法以适应底层的语法分析策略。如果你曾经为ANTLR 3的歧义性警告和yacc的归约/归约冲突(reduce/reduce conflict)而抓狂,ANTLR 4就是你的不二之选!   另外一个强大的新功能是ANTLR 4极大地简化了匹配某些句法结构(如编程语言中的算术表达式)所需的语法规则。长久以来,处理表达式都是ANTLR语法(以及手工编写的递归下降语法分析器)的难题。识别表达式最自然的语法对于传统的自顶向下的语法分析器生成器(如ANTLR 3)是无效的。现在,利用ANTLR 4,你可以通过如下规则匹配表达式:   类似expr的自引用规则是递归的,更准确地说,是左递归(left recursive)的,因为它的至少一个备选分支直接引用了它自己。   ANTLR 4自动将类似expr的左递归规则重写成了等价的非左递归形式。唯一的约束是左递归必须是直接的,也就是说规则直接引用自身。一条规则不能引用另外一条规则,如果后者的备选分支之一在左侧直接引用了前者(而没有匹配一个词法符号)。详见5.4节。   除了上述两项与语法相关的改进,ANTLR 4还使得编写语言类应用程序更加容易。ANTLR生成的语法分析器能够自动建立名为语法分析树(parse tree)的视图,其他程序可以遍历此树,并在所需处理的结构处触发回调函数。在先前的ANTLR 3中,用户需要补充语法来创建树。除了自动建立树结构之外,ANTLR 4还能自动生成语法分析树遍历器的实现:监听器(listener)或者访问器(visitor)。监听器与在XML文档的解析过程中响应SAX事件的处理器相似。   由于拥有以下几点ANTLR 3所不具备的新特性,ANTLR 4显得非常容易上手:   最大的改变是ANTLR 4降低了语法中内嵌动作(代码)的重要性,取而代之的是监听器和访问器。新机制将语法和应用的逻辑代码解耦,使得应用程序本身被封装起来,而非散落在语法的各处。在没有内嵌动作的情况下,你可以在多个程序中复用同一份语法,甚至都无须重新编译生成的语法分析器。虽然ANTLR仍然允许内嵌动作的存在,但是在ANTLR 4中,它们更像是一种进阶用法。这样的行为能够最大程度地掌控语法分析过程,但其代价是语法复用性的丧失。   由于ANTLR能够自动生成语法分析树和树的遍历器,在ANTLR 4中,你无须再编写树语法。取而代之的是一些广为人知的设计模式,如访问者模式。这意味着,在学会了ANTLR语法之后,你就可以重回自己熟悉的Java领域来实现真正的语言类应用程序。   ANTLR 3的LL(*)语法分析策略不如ANTLR 4的ALL(*)强大,所以ANTLR 3为了能够正确识别输入的文本,有时候不得不进行回溯。回溯的存在使得语法的调试格外困难,因为生成的语法分析器会对同样的输入进行(递归的)多趟语法分析。回溯也为语法分析器在面对非法输入时给出错误消息设置了重重障碍。   ANTLR 4是25年前我读研究生时所走的一小段弯路的成果。我想,我也许会稍微改变我曾经的座右铭。   为什么不花5天时间编程,来使你25年的生活自动化呢?ANTLR 4正是我所期望的语法分析器生成器,现在,我终于能够回头去研究我原先在20世纪80年代试图解决的问题——假如我还记得它的话。   本书的主要内容本书是你所能找到的有关ANTLR 4的信息源中最好、最完整的。免费的在线文档提供了足够多有关基础语法的句法和语义的资料,不过没有详细解释ANTLR的相关概念。在本书中,识别语言的语法模式和将其表述为ANTLR语法的内容是独一无二的。贯穿全书的示例能够在构建语言类应用程序方面助你一臂之力。本书可帮助你融会贯通,成为ANTLR专家。   本书由四部分组成。   第一部分介绍了ANTLR,提供了一些与语言相关的背景知识,并展示了ANTLR的一些简单应用。在这一部分中,你会了解ANTLR的句法以及主要用途。   第二部分是一部有关设计语法和使用语法来构建语言类应用程序的“百科全书”。   第三部分展示了自定义ANTLR生成的语法分析器的错误处理机制的方法。随后,你会学到在语法中嵌入动作的方法——在某些场景下,这样做比建立树并遍历之更简单,也更有效率。此外,你还将学会使用语义判定(semantic predicate)来修改语法分析器的行为,以便解决一些充满挑战的识别难题。   本部分的最后一章解决了一些充满挑战的识别难题,例如识别XML和Python中的上下文相关的换行符。   第四部分是参考章节,详细列出了ANTLR语法元语言的所有规则和ANTLR运行库的用法。   完全不了解语法和语言识别工具的读者请务必从头开始阅读。具备ANTLR 3使用经验的用户可从第4章开始阅读以学习ANTLR 4的新功能。   有关ANTLR的更多在线学习资料在http://www.antlr.org上,你可以找到ANTLRANTLRWorks2图形界面开发环境、文档、预制的语法、示例、文章,以及文件共享区。技术支持邮件组是一个对初学者十分友好的公开讨论组。   Terence Parr2012年11月于旧金山大学致  谢Acknowledgements大约25年前,我开始致力于ANTLR的相关工作。那时,在许多人的帮助下,ANTLR工具的句法和功能逐渐成形,在此,我向他们致以由衷的感谢。要特别感谢的是Sam Harwell,他是ANTLR 4的另一位开发者。他不仅帮助我完成了此软件,而且在ALL(*)语法分析算法上做出了突出的贡献。Sam也是ANTLRWorks2语法IDE的开发者。   感谢以下人员对本书进行了技术审阅:Oliver Ziegermann、Sam Rose、Kyle Ferrio、Maik Schmidt、Colin Yates、Ian Dees、Tim Ottinger、Kevin Gisi、Charley Stran、Jerry Kuch、Aaron Kalair、Michael Bevilacqua-Linn、Javier Collado、Stephen Wolff以及Bernard Kaiflin。同时,我还要感谢那些在本书和ANTLR 4软件处于beta版本时报告问题的热心读者。尤其要感谢的是Kim Shrier和Graham Wideman,他们二位的审阅格外认真。Graham的审阅报告之仔细、翔实和广博,令我不知是该紧握他的手予以感谢,还是该为自己的疏漏羞愧难当。   最后,我还要感谢编辑Susannah Davidson Pfalzer,她一如既往地支持我完成了三本书的创作。她提出的宝贵建议和对本书内容的精雕细琢使本书更加完美。   The Translator's Words译 者 序四年前,我在读研究生时曾经参考龙书编写过一个简单的编译器前端。经过一个星期的实践后,我意识到,从头实现一个编译器前端的难度远远超出了一般开发者的能力。编写编译器前端所需要的理论基础、技术功底和精力都远非普通软件可比。   幸运的是,ANTLR的出现使这个过程变得易如反掌。ANTLR能够根据用户定义的语法文件自动生成词法分析器和语法分析器,并将输入文本处理为(可视化的)语法分析树。这一切都是自动进行的,所需的仅仅是一份描述该语言的语法文件。   一年前,我在为淘宝的一个内部数据分析系统设计DSL时,第一次接触到了ANTLR。使用ANTLR之后,我在一天之内就完成了整个编译器前端的开发工作,从而能够迅速开始处理真正的业务逻辑。从那时起,我就被它强大的功能所深深吸引。简而言之,ANTLR能够解决别的工具无法解决的问题。   软件改变了世界。数十年来,信息化的浪潮在全球颠覆着一个又一个的行业。然而,整个世界的信息化程度还远未达到合理的高度,还有大量传统行业的生产力可以被信息化所解放。在这种看似矛盾的情形背后存在着一条鸿沟:大量从事传统行业的人员拥有在本行业中无与伦比的业务知识和经验,却苦于跟不上现代软件发展的脚步。解决这个问题的根本方法就是DSL(Domain Specific Language),让传统行业的人员能够用严谨的方式与计算机对话。其实,本质上任何编程语言都是一种DSL,殊途同归。   而实现DSL的主要困难就在编译器前端。编译器被称为软件工程皇冠上的明珠。一直以来,对于普通的开发者而言,编译器的设计与实现都如同诗中描述的那样:“白云在青天,可望不可即。”   ANTLR改变了这一切。ANTLR自动生成的编译器前端高效、准确,能够将开发者从繁杂的编译理论中解放出来,集中精力处理自己的业务逻辑。ANTLR 4引入的自动语法分析树创建与遍历机制,极大地提高了语言识别程序的开发效率。   时至今日,ANTLR仍然是Java世界中实现编译器的不二之选,同时,它对其他编程语言也提供了不同程度的支持。在开始学习ANTLR时,我发现国内有关ANTLR的资料较为贫乏,这催生了我翻译本书的念头。我期望通过本书的翻译,让更多的开发者能够更加自如地解决职业生涯中碰到的难题。   本书没有冗长的理论,而是从一些具体的需求出发,由浅入深地介绍了语言的背景知识、ANTLR语法的设计方法以及基于ANTLR 4实现语言识别程序的详细步骤。它尤其适用于对语言识别程序的开发感兴趣的开发者。不过,假如你现在没有这样的需求,我仍然建议你阅读本书,因为它能够开拓你的眼界,让你深入实现层面加深对编程语言的理解。
ANTLR是一种流行的工具,用于设计和实现编译器、解释器和其他语言处理器。ANTLR是一个强大的生成器,它可以根据语法规则生成解析器和词法分析器。ANTLR使用Java编写,但可以生成多种语言的代码,包括Java、C++、Python和JavaScript等。ANTLR的主要优点是易于使用和学习,同时具有强大的功能和灵活性。 下面是使用ANTLR设计编译器的一些步骤: 1.定义语法规则:使用ANTLR的语法规则定义语言的语法。ANTLR使用EBNF(扩展巴克斯-诺尔范式)表示法,可以轻松地定义语言的语法。 2.生成解析器和词法分析器:使用ANTLR生成解析器和词法分析器。ANTLR会根据语法规则自动生成解析器和词法分析器的代码。 3.编写语义动作:在ANTLR的语法规则中,可以添加语义动作,这些动作会在解析器解析输入时执行。语义动作可以执行任何操作,例如构建抽象语法树或生成目标代码。 4.测试和调试:使用ANTLR生成的解析器和词法分析器解析输入,并检查输出是否符合预期。如果出现错误,可以使用ANTLR提供的调试工具进行调试。 下面是一个使用ANTLR解析简单算术表达式的示例: ```antlr grammar Expr; expr: term (('+'|'-') term)* ; term: factor (('*'|'/') factor)* ; factor: INT | '(' expr ')' ; INT: [0-9]+ ; WS: [ \t\n\r]+ -> skip ; ``` 在这个示例中,我们定义了一个简单的算术表达式语言,它支持加、减、乘、除和括号。使用ANTLR生成解析器和词法分析器后,我们可以使用以下代码解析输入: ```java String input = "2 * (3 + 4)"; ExprLexer lexer = new ExprLexer(CharStreams.fromString(input)); CommonTokenStream tokens = new CommonTokenStream(lexer); ExprParser parser = new ExprParser(tokens); ExprParser.ExprContext tree = parser.expr(); ``` 这将解析输入并构建抽象语法树。我们可以遍历抽象语法树并执行任何操作,例如计算表达式的值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值