C词法分析器java简单实现
一、对于C语言程序的内容大致分为这几类:
(1)1 关键字 是由程序语言定义的具有固定意义的标识符。例如,C语言总的int,main,static,string等等
(2)2 标识符 用来表示各种名字,如变量名,数组名,过程名等等。
(3)3 常数 常数的类型一般有整型、实型 true/false。
(4)4 运算符 如+、-、*、/等等。
(5)5 界符 如逗号、分号、括号、中括号,大括号等等。
所以我们要做的任务是将这些代码给归类;从程序中将这些信息给分别找出来;如果还不理解你就想像一下;有3词:a 、2、我;
显然①a ②2 ③我;
你只需要将这些给归类然后判断一下;
List < String> list=new ArrayList<>();
if(“a”.equals(str)){
list.add(“a”+":a类 “);
}else if(“2”.equals(str)){
list.add(“2”+”:2类 “);
}else if(“我”.equals(str)){
list.add(“我”+”:我类 ");
}else{
//不做任何处理直接过滤不应该出现的错误信息;
}
以上这个就是程序大概的思想
二、实现
1、 关于C 语言大致分为五类:
(1)1 关键字 是由程序语言定义的具有固定意义的标识符。例如,C语言总的int,main,static,string等等
(2)2 标识符 用来表示各种名字,如变量名,数组名,过程名等等。
(3)3 常数 常数的类型一般有整型、实型 true/false。
(4)4 运算符 如+、-、*、/等等。
(5)5 界符 如逗号、分号、括号、中括号,大括号等等;
对于这个五类信息的处理很显然;
1、 关键字没有什么规律,它是C语言的定义规范,数量不多有限,是提前设计好的所以这类信息我们可以用数组存储起来,用来比较的时候可以遍历一遍以此比较就好。arrayList比较适合。
2、对于其余四种他都有一定的语法规则,这时候你想到了是什么,一定是正则对不对,所以我们来用正则表示它们:
//标识符2 由字母数字下划线组成不能以数字开头;0/多个 +一个或者多个 ?0/1
public static String reg2 = "[a-zA-Z_]\w";