Token和正则表达式
Token(词法单元)的内容:单词、单词类别(catalog)、内部码/内码(Inner_code)
一个单词中有多个不同的实例,才需要内部码来区分
单词的构造规则:
- 通过正规文法(见第二章)
- 正则表达式(Regular Expression)
正则表达式规则:
- ε是最基本的正规表达式
- 构造符号:
| :或
• :连接connect
* :闭包closure
优先级:* >•> | - 正规表达式的特性:
- 正则定义:给一些正规表达式命名,并在之后的正规表达式中像使用符号一样使用这些名字。
一个正则定义是具有如下形式的定义序列:
di → ri
其中,每个di都是一个新符号,他们不在∑中,并且各不相同。而每个ri都是字母表∑∪{d1,d2,…, di-1}上的正规表达式。
- 其他简化符号
+ :一个或多