编译原理与技术（二）——词法分析（一）正则表达式

MCQSLW

已于 2024-02-02 12:54:44 修改

阅读量901

点赞数 9

文章标签：正则表达式

于 2024-02-01 19:49:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MCQSW/article/details/135980623

版权

本文介绍了词法分析的基本概念，包括如何将程序字符流转换为词法单元，以及词法单元的构成。重点讲解了正则表达式在识别词法单元中的作用，展示了如何通过正则表达式设计匹配规则，并将其与有限自动机的概念关联起来。

摘要由CSDN通过智能技术生成

一、词法分析的概貌

一个程序，在我们看来往往是像下图这样的。

实际上，上面的程序本质上就是一个字符串，所以，它等价于下面这样的。

上面的字符串（字符流），就是编译器接收到的程序的形式。

所以，编译器首先要对字符流进行断句，即将输入字符串识别为有意义的子串，删去注释和无意义的换行符等字符。有意义的子串又叫词法单元（token）。

从程序字符流中获取词法单元集合的过程就是词法分析。

二、词法单元

词法单元（token）由一个记号名和一个可选的属性值（可为空）组成。即

token = <token_name, attribute_value>

属性记录词法单元的附加属性，具体有哪些附加属性，则要看编译器的设计者如何设计。

词法单元保存在符号表（Symbol table）中，以便编译的各个阶段取用。

例如：

有关词法单元的关键术语如下图所示。

举个例子。

三、正则表达式（Regular Expression, RE）

（一）初识正则表达式

如何识别（匹配）词法单元呢？

我们可以考虑上面图中的模式的非形式描述，但显然在计算机中这是根本不可能的。

我们需要形式化地来设计模式，而这个模式就是正则表达式。

正则表达式是一个文本模式，使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。

比如匹配正整数的正则表达式可以如下设计：

上图中的*表示闭包运算（某字符零次或多次出现），|表示选择运算符。

该正则表达式匹配正整数123的过程可如下表示。

匹配会从开始状态出发，不同的箭头代表不同的路径，能否走这条路径的条件是当前字符是否等于该路径上的字符（即是否匹配），终点是接受状态，用一对同心圆表示。

当一个词法单元能够通过上面过程到达接受状态，就说明：该词法单元可被该正则表达式匹配。

有关正则表达式的详细介绍，可参考下面的链接：

正则表达式 – 教程 | 菜鸟教程 (runoob.com)

而上图中的箭头与圆圈就组成了有限自动机（Finite Automata）。

所以，词法单元被某正则表达式所匹配，就等价于该词法单元被该正则表达式对应的有限自动机匹配。

（二）正则表达式的关键术语与概念

（三）正则表达式定义了语言

举个例子。

参考资料：

[1]USTC 编译原理和技术 2023 (ustc-compiler-principles.github.io)

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄3年

22
原创

369
点赞

464
收藏

303
粉丝

关注

私信

热门文章

最新评论

编译原理与技术（二）——词法分析（一）正则表达式
NA_GI_: 写的真好啊，这都是博主自己理解的，还是参考别人的
编译原理与技术（三）——语法分析（二）自顶向下-递归下降
CSDN-Ada助手: 恭喜作者在编译原理与技术领域持续深入探索，第17篇博客内容丰富，对自顶向下-递归下降的语法分析进行了深入讲解。希望作者在后续的创作中，可以结合实际案例或者项目经验，更加生动地呈现知识点，让读者更易于理解和接受。期待作者的下一篇精彩文章！
编译原理与技术（三）——语法分析（三）自顶向下-LL(1)文法
CSDN-Ada助手: 恭喜作者在编译原理与技术方面的持续探索与分享！对于自顶向下-LL(1)文法的深入讨论让我受益匪浅。希望作者能够继续分享更多关于语法分析的知识，或者可以考虑深入探讨其他编译原理相关的主题，比如语法制导翻译、语义分析等等。期待作者更多精彩的文章！
编译原理与技术（三）——语法分析（四）自底向上-移进归约
CSDN-Ada助手: 恭喜你写了第19篇博客！标题看起来非常有深度，我很期待读到你关于自底向上-移进归约的内容。编译原理与技术是一个相当复杂的领域，你的博客内容对于理解语法分析一定会有很大帮助。希望你能继续坚持创作，无论是对读者还是对自己都是一种很好的学习方式。如果可以的话，我建议你在下一篇博客中加入一些实例或者案例分析，以帮助读者更好地理解自底向上-移进归约的概念和应用。谢谢你的分享，期待你的下一篇作品！
编译原理与技术（三）——语法分析（五）自底向上-LR分析
CSDN-Ada助手: 恭喜您写了第20篇博客，标题为：“编译原理与技术（三）——语法分析（五）自底向上-LR分析”。您的持续创作展现了您对编译原理与技术的深入理解，让读者受益匪浅。希望您能继续分享更多关于编译原理与技术的知识，也可以考虑结合实际应用案例，让读者更好地理解和运用这些知识。期待您的下一篇精彩文章！

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。