ANTLR是用java实现的一个语言识别器,它通过定义一个要识别目标语言的结构文件,然后用它的工具将该文件生成为可解析目标语言的java代码,利用生成的代码就可对目标语言进行解析。这种方式避免了自己编写java代码去解析文本,可利用ANTLR解析JSON,HTML,XML,EDIFACT,或自定义的报文格式。解析出来的信息需要做什么处理也可以在结构文件中定义。下面给出一些定义目标语言元素的描述方式:
带双引号的字符串: STRING: ' "' ( '\"' | ~('"') )* '" '
字母数字下划线: ID: 'a'..'z'|'0'..'9'|'_'
获取解析出的内容: s=ID+ {System.out.println($s.text);}
s的内容为1个或多个字母数字,当目标字符串符合这个条件时,可以从$s.text获得目标中的实际内容。
ANTLR结构定义内容很多,具体语法格式和使用方式见 http://www.antlr.org/ 或书籍: The Definitive Guide ANTLR Reference
利用ANTLR,可以设计特定领域语言(DSL),类似hibernate中的HQL,用DSL来定义要执行操作的高层语法,这种语法接近人可理解的语言,由DSL到计算机语言的翻译则通过ANTLR来做,可在ANTLR的结构语言中定义DSL命令具体要执行何种操作。