编译原理词法分析器实验报告_浅入浅出Javac编译原理

504324b9bcc80b1e66199b0de2386ba2.png

浅入浅出Javac编译原理

Java语言是当今程序员中使用最广的语言,不光是从语言本身来说,还包括了与Java相关的一些概念。例如JDK,J2EE,JVM等等。还不断有新的语言出现,如groove,scale等,他们到底和Java有什么关系,为什么这些非Java语言也能够运行在JVM上?Java又和JVM有什么关系呢?
今天这篇文章就是来探索这个问题的,Java语言有Java语言规范,而Java虚拟机也有Java虚拟机规范。二者都有自己的词法和语法解析规则,那么如何才能让Java的语法规则适应Java虚拟机的语法规则呢?这个任务就是由Javac编译器来实现的,他的任务就是将Java语言规范转化为Java虚拟机语言规范,将Java的源代码转化为class字节码。小编认为,掌握任何一门语言的前提都是要明白语言底层的编译机制,所以我们爪哇岛的第一篇文章就从Javac的编译原理开始!

目录

  • 浅入浅出Javac编译原理
    • 1.Javac是什么?
    • 2.Javac编译器的基本结构
    • 3.设计模式之访问者模式
      • 3.1访问者模式基本介绍
      • 3.2访问者模式实现
        • 表示电脑元素的接口————ComputerPart.java
        • 创建实现上述接口的实现类———Keyboard.java Monitor.java和Mouse.java
        • 定义一个表示访问者的接口 ——— ComputerPartVisitor.java
        • 创建实现了上述接口的实体访问者———ComputerPartDisplayVisitor.java
        • 使用Main函数来显示Computer的组成部分
        • 执行程序,输出结果
      • 3.3 Javac中访问者模式的实现

1.Javac是什么?

Javac是一种编译器,能够将一种语言规范转化为另外一种语言规范。 - 对于C,C++,汇编语言等语言采用的是一边编译一边执行的方式。这些语言可以将源码直接编译为CPU可以识别的目标机器码,因此执行时占用资源较少而且编译速度较快。编译器在这里的功能就是将语言规范转化为机器码规范。 - 对于Java语言来说,由于引入了Java虚拟机,不能够将源码直接编译为CPU可以识别的机器码,因此采用的是完全编译之后才能执行,所以占用的时间和空间都比较大。编译器(Javac)在这里的功能就是将Java源代码转化为Java虚拟机所能够识别的JVM语言,Java虚拟机再进一步将JVM语言编译为CPU可以识别的目标机器码。

2.Javac编译器的基本结构

想要搞清楚Javac编译器的基本结构,那么首先就要明白一个编译器将一种语言规范转化为另外一个语言规范需要经过哪些步骤?这就要想起大学时编译原理这门课的知识了。
首先,要读取源码,一个字节一个字节的都进来,找出字节中有哪些是我们定义的语法关键词,如Java中的If ,while ,for等词语,还要识别哪些关键字是合法的哪些不是,这个步骤就是词法分析过程。词法分析的结果就是形成一个符合Java规范的Token流,就像是在日常和朋友交流中,朋友告诉你一句话,你要能分辨出哪些是标点符号,哪些是主语,哪些是谓语等等。
接下来就是要对这些token流进行语法分析了,这一步就是检查这些关键词在一起是不是符合Java语法规范,比如If关键词后边跟的是不是布尔表达式。就像人类语言当中是不是有主谓宾,主谓宾的结合是不是正确,比如吃这个关键词后边就不能跟”屎“这个词语。语法分析的结果是形成一个符合Java规范的抽象语法树。抽象语法树是一个结构化的语法表达形式,它的作用是把语言的主要词法用一个结构化的形式组织在一起,对于这棵语法树我们可以在后面按照新的规则再重新组织,这也是编译器非常重要的功能之一。
第三步是语义分析,语义分析是把一些难懂的复杂的语法转化为更加简单的易于编译器理解的语法,例如将for each转化为for循环结构,解释注解等等。这个步骤对应到人类语言中类似于将文言文转化为大家都能懂的白话文。语义分析的结果是形成一个新的抽象语法树,这个语法树更加接近JVM语言的语法规则。
最后一步,通过字节码生成器根据新的抽象语法树生成字节码,也就是将一个数据结构(抽象语法树)转化为另一个数据结构(字节码)。就像所有的中文词语翻译成英文单词之后,按照英文语法组装成英文语句。
代码生成器的结果就是生成符合Java虚拟机规范的字节码了。这个过程需要的组件可以参照下图。

Javac组件

5a2331b8aaaf5c718b842d6e0ed281f2.png

Javac的各个模块完成了将Java源代码转化成JVM字节码的任务。Javac主要有四个模块,分别是词法分析器,语法分析器,语义分析器和代码生成器。

3.设计模式之访问者模式

前面介绍的词法分析器、语法分析器、语义分析器和代码生成器中有多次遍历语法树的过程,然而每次遍历这棵语法树都会进行不同的处理动作,对这棵语法树也要进行进一步的处理。这是如何实现的呢?这实际上就是采用了访问者模式设计的,每次遍历都是一次访问者的执行过程。

3.1访问者模式基本介绍

在访问者模式中,我们使用了一个访问者类,目的是将数据结构与数据操作相分离,降低稳定的数据结构和易变的数据操作之间的耦合性。在被访问的类里面加一个和对外提供接待访问者的接口,将自身引用传入访问者。
优点:符合单一职责原则;优秀的扩展性,可以方便满足不同的访问需求;访问条件的灵活性,
缺点:具体元素对访问者公布细节,违反了迪米特原则;具体元素变更比较困难,需重写相应的接口;违反了依赖倒置原则,没有依赖抽象,依赖了具体类!
建议使用场景:对象结构中类很少改变,但是需要经常在对象结构上定义新的操作;需要对一个对象结构中的对象进行很多不同的并且不相关的操作,而需要避免这些操作”污染“这些对象。

3.2访问者模式实现

访问者模式实现UML图

4ee0d1d34fc13a712dcfed598a138c41.png

表示电脑元素的接口————ComputerPart.java

public interface ComputerPart {
   public void accept(ComputerPartVisitor computerPartVisitor);
}

创建实现上述接口的实现类———Keyboard.java Monitor.java和Mouse.java

public class Keyboard  implements ComputerPart {

   @Override
   public void accept(ComputerPartVisitor computerPartVisitor) {
       //暴漏了this,使得该类可以被visit
      computerPartVisitor.visit(this);
   }
}
public class Monitor  implements ComputerPart {

   @Override
   public void accept(ComputerPartVisitor computerPartVisitor) {
      computerPartVisitor.visit(this);
   }
}
public class Mouse  implements ComputerPart {

   @Override
   public void accept(ComputerPartVisitor computerPartVisitor) {
      computerPartVisitor.visit(this);
   }
}

定义一个表示访问者的接口 ——— ComputerPartVisitor.java

public interface ComputerPartVisitor {
   public void visit(Mouse mouse);
   public void visit(Keyboard keyboard);
   public void visit(Monitor monitor);
}

创建实现了上述接口的实体访问者———ComputerPartDisplayVisitor.java

public class ComputerPartDisplayVisitor implements ComputerPartVisitor {
   @Override
   public void visit(Mouse mouse) {
       //add some codes to consume the elements of Class mouse
      System.out.println("Displaying Mouse.");
   }

   @Override
   public void visit(Keyboard keyboard) {
        //add some codes to consume the elements of Class keyboard
      System.out.println("Displaying Keyboard.");
   }

   @Override
   public void visit(Monitor monitor) {
        //add some codes to consume the elements of Class monitor
      System.out.println("Displaying Monitor.");
   }
}

使用Main函数来显示Computer的组成部分

public class VisitorPatternDemo {
   public static void main(String[] args) {

      ComputerPart computer = new Computer();
      computer.accept(new ComputerPartDisplayVisitor());
   }
}

执行程序,输出结果

Displaying Mouse.
Displaying Keyboard.
Displaying Monitor.

访问者模式中一般有抽象访问者、具体访问者、抽象节点元素、具体节点元素、结构对象和客户端几种角色,它们的具体左右如下所述。

  • 抽象访问者(ComputerPartVisitor):声明所有访问者需要的接口.
  • 具体访问者(ComputerPartDisplayVisitor):实现抽象访问者声明的接口。
  • 抽象节点元素(ComouterPart):提供一个接口,能够接受访问者作为参数传递给节点元素。
  • 具体节点元素(Keyboard,Mouse和Monitor):实现抽象节点元素声明的接口。
  • 结构对象(本样例中没有):提供一个接口,能够访问到所有的节点元素,一般作为一个集合特有节点元素的引用。
  • 客户端(VisitorPatternDemo):创建节点元素的对象,调用访问者访问节点元素。

3.3 Javac中访问者模式的实现

访问者模式可以将数据结构和对数据结构的操作解耦,使得增加对数据结构的操作不需要去修改数据结构,也不必去修改原有的操作,而是在执行时再定义新的具体访问者(visitor)就行了。在Javac中,不同的编译阶段都定义了不同的访问者模式实现。Javac就是基于访问者模式来遍历语法树的,在编译的不同阶段(词法分析,语法分析,语义分析,字节码生成器)定义不同的访问者从而实现在不需要修改原有语法树的数据结构的前提下,多次访问语法树

参考教程:
菜鸟教程——访问者模式
许令波——深入分析Java Web技术内幕(第四章)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
java编程 含有界面 以及完整代码 〈程序〉→ main()〈语句块〉 〈语句块〉→{〈语句串〉} 〈语句串〉→〈语句〉;〈语句串〉|〈语句〉; 〈语句〉→〈赋值语句〉|〈条件语句〉|〈循环语句〉 〈赋值语句〉→ ID =〈表达式〉; 〈条件语句〉→ if〈条件〉〈语句块〉 〈循环语句〉→ while〈条件〉〈语句块〉 〈条件〉→(〈表达式〉〈关系符〉〈表达式〉) 〈表达式〉→〈表达式〉〈运算符〉〈表达式〉|(〈表达式〉)|ID|NUM 〈运算符〉→+|-|*|/ 〈关系符〉→<|<=|>|>=|=|!> word.wordList包(存储了关键字): word:此类是定义了存储关键字的结构:包括String型的关键字,和int型的识别符。 wordList:此类存储了29个关键字,在构造函数中初始化。 2、word包(进行词法分析)中: basicFunction:此类定义了做词法分析的基本函数: GetChar()将下一输入字符读到ch中,搜索知识器前移一个字符位置 GetBC();检查ch中的字符是否为空白。若是,则调用GetChar直至不 是字符为止 Concat();将ch中的字符连接到strToken之后 IsLetter();判断ch中的字符是否为字母 IsDigit();判断ch中的字符是否为数字 Reserve();对strToken中的字符创查找保留字表,若是则返回它的编码,否则返回0 Retract();将搜索指示器回调一个字符位置 RetractStr();将strToken置空 lexAnalysis:此类是用来进行词法分析,将分析后的单词存入word数组中,(注:在词法分析中,若是一串字母,则认为是ID,若是数字,则认为是NUM。存储的时候识别符分别存ID与NUM的识别符,但是内容仍然是自己的内容) 其中的wordAnalysis函数就是词法分析函数(具体实现请看后面的重要函数分析) 3、stack包(定义栈)中: 栈是通过链表来定义的,因此 StringListElement:次类定义了链表的每一个节点 StringStrack:此类定义了栈,其中有长度属性,有函数: Top();用来取得栈顶 Push();压栈 Pop();出栈 4、sentence包(语法分析)中: juzi :定义了文法的句子的结构:key(左边部分) content[](右边推出的部分) lo(长度) grammar :存储了文法的27个关系式 AnalysisFB :定义了分析表的存储结构 AnalysisF :存储分析表 SentenceAnalysis :语法分析 JuProduction(word w):此函数是用来判断在当前栈与输入串的情况下,用哪一个产生式,返回产生式在数组中的下标 若输入串的第一个字符与栈顶字符相同则表示可以规约,则返回-1; 若不能过用产生式,则返回-2; AnalysisBasic(word w):此函数是分布进行语法分析,对栈操作 * 根据所需要的产生式对符号栈进行操作 * 返回0表示规约;返回1表示移进;否则表示输入串不是文法的句子 5.Main包(主界面)中 Main:此类定义了图形界面
package analysis; import java.util.ArrayList; import java.util.List; import library.Digit; import library.KeyWords; import library.Symbol; /** * * @author 周弘懿 * */ public class AnalyseWords { private List temp = new ArrayList(); public List getTemp() { return temp; } /* 关键字或者标识符的长度。 */ private static final int LENGTHOFKEYWORDS = 500; /* 整型数据的长度。 */ private static final int LENGTHOFINT = 500; /* 字符串常量长度。 */ private static final int LENGTHOFSTRING = 1024; String result = ""; int position; /** * 处理程序 * * @return 词法分析后的结果 */ public void process(String aLine) { /* 存放关键字和标识符 */ byte[] word = new byte[LENGTHOFKEYWORDS]; /* 存放数字 */ byte[] number = new byte[LENGTHOFINT]; /* 存放运算符 */ byte[] symbol = new byte[500]; /* 存放字符串常数或是字符常数 */ byte[] string = new byte[LENGTHOFSTRING]; byte temp[]; temp = aLine.getBytes(); if(new String(temp).trim().length() == 0) this.temp.add("请输入C语言程序!"); /** * 主要逻辑 */ for (position = 0; position= temp.length) { return; } /* 滤掉空格、制表键。 */ if (temp[position] != ' ' || temp[position] != '\t') { /* 允许大小写字母和下划线 */ if ((temp[position] >= 65 && temp[position] = 97 && temp[position] = 48 && temp[position] = temp.length) /* 如果已经超过界限就终止循环。 */{ String checkdWord = new String(word, 0, tempPosition + 1); decideWord(checkdWord); return position; } } while ((temp[position] >= 65 && temp[position] = 97 && temp[position] = 48 && temp[position] = 48 && temp[position] = temp.length) /* 如果已经超过界限就终止循环。 */{ String checkdNumber = new String(number, 0, tempPosition + 1); decideNum(checkdNumber); return position; } } while (temp[position] >= '0' && temp[position] <= '9' || temp[position] == '.'); String checkdNumber = new String(number, 0, tempPosition + 1); decideNum(checkdNumber); // 因为上面的已经移到末尾,因为for还要+1,所以要-1 position--; } return position; } /** * 分析字段是实型还是整型常数 * @param checkdNumber 分析数字字段 */ private void decideNum(String checkdNumber) { if (Digit.hasDot(checkdNumber)) { try { double num = Double.parseDouble(checkdNumber); this.temp.add("(" + num + ", 实型常数)\n"); } catch (Exception e) { this.temp.add("(" + checkdNumber + ", 错误,发现多个.)\n"); } } else { try { long num = Long.parseLong(checkdNumber); this.temp.add("(" + num + ", 整型常数)\n"); } catch (Exception e) { this.temp.add("(" + checkdNumber + ", 错误,不是整型常数!)\n"); } } } /** * 分析字符常数,字符串常数和边界符 * @param position 词法分析语句遍历指针 * @param string 字符,字符串和边界符的数组 * @param temp 词法分析语句数组 * @return 返回词法分析语句遍历指针的新位置 */ public int analysisLimitSymble(int position, byte[] string, byte temp[]) { // 过滤字符串常数 if (temp[position] == '"') { // 存储数组的指针 int tempPosition = -1; do { tempPosition++; string[tempPosition] = temp[position]; position++; } while (temp[position] != '"'); //要把最后一个"给过滤掉,所以要向后移一个位置。 tempPosition++; string[tempPosition] = '"'; String checkdNumber=new String(string,0,tempPosition+1); this.temp.add("(" + checkdNumber + ", 字符串常数)\n"); } // 过滤字符常数 else if (temp[position] == '\'') { // 存储数组的指针 int tempPosition = -1; do { tempPosition++; string[tempPosition] = temp[position]; position++; } while (temp[position] != '\''); tempPosition++; string[tempPosition] = '\''; //要把最后一个"给过滤掉,所以要向后移一个位置。 String checkdNumber=new String(string,0,tempPosition+1); //c语言语法规定字符常量的字符数只能是1,再加上2个’,刚好应该是3。 if(tempPosition+1= 2) { this.temp.add("(" + new String(symbol,0,tempPosition+1)+ ", 错误,字符长度仅限2位)\n"); return position; } position++; if(position >= temp.length) /* 如果已经超过界限就终止循环。 */{ String checkdWord = new String(symbol, 0, tempPosition+1); position = decideSymble(checkdWord, temp, position); return position; } } while(Symbol.isSingleSymble(new String(temp, position, 1))); String checkdWord = new String(symbol, 0, tempPosition+1); //单个运算符可能组成符合运算符 position = decideSymble(checkdWord, temp, position); position--; return position; } private int decideSymble(String checkdWord, byte temp[], int position) { if(Symbol.isComboSymbol(checkdWord)) { this.temp.add("(" + checkdWord + ", 复合运算符)\n"); } else if(Symbol.isSingleSymble(checkdWord)) { this.temp.add("(" + checkdWord + ", 运算符)\n"); }else if(checkdWord.equals("/*")) { //过滤注释 this.temp.add("(" + checkdWord + ", 前注释)\n"); do { position++; if(position >= temp.length) { return position; } } while(temp[position] != '*'); /* 直到阅读到*,表示将其间的注释都过滤 */ position++; if(position>=temp.length) { /*如果已经超过界限就终止循环。*/ this.temp.add("错误,后注释缺少结束符'/'\n"); return position; } if(temp[position]!='/') { this.temp.add("错误,后注释缺少结束符'/'\n"); } else { this.temp.add("(" + new String(temp, position-1, 2) + ", 后注释 )\n"); return position-1; } } return position; } public static void main(String[] args) { AnalyseWords aw = new AnalyseWords(); aw.process("sd"); for (String str : aw.temp) { System.out.println(str); } } }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值