编译原理词法分析器实验报告_方舟编译器简明学习笔记5—前端结构

eb0c78cd7c7a99a49f4aa9c229a4217d.png

编译器结构的知识补充

编译器包含三个部分,整体架构分为前端、中端和后端,之前的文章中已经说明了。前端Front End,主要负责将源代码翻译成IR(中间表示);中端的Optimizer主要负责代码优化,将前端翻译过来的IR代码优化得更高效;后端Back End则将优化后的IR编译成010101的机器码。

46f83c631406020dfb58d6108c3481a6.png

为了防止生态过于碎片化,安卓只为第三方开放了简单的编译代码优化模板,代码优化空间有限。


编译器经典结构

9b2d2218fc94e7757d36967d19e051da.png

上面的图基本上不用我叙述了,大家都能看明白基本流程了,下面就重点要说一下编译器的前端部分。

编译器前端部分

前端包括词法分析器(Scanner)、词法解析器(Parser)、语义规则(Semantic Elaboration),其中程序代码是一串字符流的形式进入词法分析器的,拆分出来的有意义的单元进入词法解析器中,但词法解析器需要参照语义规则进行解析,解析出来的结果再传入到中端(IR)进行处理。

我简单画一下关系图。

3b4a664b67dbc7d0a48dc65323e2cb44.png

词法分析

RE—regex,正则表达式,我用自己的话直接解释了,就是一种明确格式的字符,比如我规定了“yyyy-MM-dd”,这串日期的字符必须是严格按这个规范来的,符合这个标准的必须是“2019-12-18”。

词法分析中,先对符合正则表达的字符流进行处理,取出这类字符。

NFA&DFA&mDFA—非确定性&确定性的(最小)有限自动机,其实也很简单FA(有限自动机)就是一个识别器,可以识别正规的语言或正则表达规定的内容。

FA前面的限定词都是提高效率或者针对输入的字符内容不确定状态,所开发的相应能力的识别器。编译器的前端需要经历上述三类限定的自动识别这个过程。

整个词法分析器就是上述内容的循环实现。

之前有个同学在研究数据结构问题,其中数据对接就是重点是两个数据的RE部分,通过中间循环流程实现两个不同格式的数据对接。但中间限制还是比较多,如果这个数据完全无序无规则,需要自己探寻的话,我建议使用大数据深度学习方式来确定正则和自动识别器关键词选取,不过因为库会比较大,这样生成的数据对接模式只适合成为一款插件。

语法分析

词法分析器与语法分析是互相对应的,词法分析后将整段的文字分解成了一串一串的字符流,接下来语法分析器就开始工作了,利用识别算法将这些字符流整理形成一条主线,然后像英语的语法一样,主谓宾、定状补都是主线上的单元,于是就以语法结构为主干,以相应的数据元素为枝叶,形成了语法结构树。

a168f73a355aad22f36702785c2b7e83.png

语法树的鲜明特点就是它的各个元素都是已经按规则划分到相关的枝干位置上,中间层IR是以这种语法结构树的框架进行解析和优化的,所以词法分析器的输出对于中间层是可以被识别和继续优化的。

对于词法分析器,将输入的字符流进行解析,拆分和转换,最终形成语法结构树的过程,需要靠一种算法,而这种识别算法就是词法分析器的核心所在。识别算法可以自己设计调试,也可以直接采用现有的经典算法,比如多文法识别、二义性分析等。

java编程 含有界面 以及完整代码 〈程序〉→ main()〈语句块〉 〈语句块〉→{〈语句串〉} 〈语句串〉→〈语句〉;〈语句串〉|〈语句〉; 〈语句〉→〈赋值语句〉|〈条件语句〉|〈循环语句〉 〈赋值语句〉→ ID =〈表达式〉; 〈条件语句〉→ if〈条件〉〈语句块〉 〈循环语句〉→ while〈条件〉〈语句块〉 〈条件〉→(〈表达式〉〈关系符〉〈表达式〉) 〈表达式〉→〈表达式〉〈运算符〉〈表达式〉|(〈表达式〉)|ID|NUM 〈运算符〉→+|-|*|/ 〈关系符〉→<|<=|>|>=|=|!> word.wordList包(存储了关键字): word:此类是定义了存储关键字的结构:包括String型的关键字,和int型的识别符。 wordList:此类存储了29个关键字,在构造函数中初始化。 2、word包(进行词法分析)中: basicFunction:此类定义了做词法分析的基本函数: GetChar()将下一输入字符读到ch中,搜索知识器前移一个字符位置 GetBC();检查ch中的字符是否为空白。若是,则调用GetChar直至不 是字符为止 Concat();将ch中的字符连接到strToken之后 IsLetter();判断ch中的字符是否为字母 IsDigit();判断ch中的字符是否为数字 Reserve();对strToken中的字符创查找保留字表,若是则返回它的编码,否则返回0 Retract();将搜索指示器回调一个字符位置 RetractStr();将strToken置空 lexAnalysis:此类是用来进行词法分析,将分析后的单词存入word数组中,(注:在词法分析中,若是一串字母,则认为是ID,若是数字,则认为是NUM。存储的时候识别符分别存ID与NUM的识别符,但是内容仍然是自己的内容) 其中的wordAnalysis函数就是词法分析函数(具体实现请看后面的重要函数分析) 3、stack包(定义栈)中: 栈是通过链表来定义的,因此 StringListElement:次类定义了链表的每一个节点 StringStrack:此类定义了栈,其中有长度属性,有函数: Top();用来取得栈顶 Push();压栈 Pop();出栈 4、sentence包(语法分析)中: juzi :定义了文法的句子的结构:key(左边部分) content[](右边推出的部分) lo(长度) grammar :存储了文法的27个关系式 AnalysisFB :定义了分析表的存储结构 AnalysisF :存储分析表 SentenceAnalysis :语法分析 JuProduction(word w):此函数是用来判断在当前栈与输入串的情况下,用哪一个产生式,返回产生式在数组中的下标 若输入串的第一个字符与栈顶字符相同则表示可以规约,则返回-1; 若不能过用产生式,则返回-2; AnalysisBasic(word w):此函数是分布进行语法分析,对栈操作 * 根据所需要的产生式对符号栈进行操作 * 返回0表示规约;返回1表示移进;否则表示输入串不是文法的句子 5.Main包(主界面)中 Main:此类定义了图形界面
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值