Python源码分析4 – Grammar文件和语法分析

最新推荐文章于 2023-01-04 23:39:22 发布

原创

最新推荐文章于 2023-01-04 23:39:22 发布 · 6.7k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #input #struct #printing #newline #terminal

本文详细介绍了Python源码中的Grammar文件及其作用，包括如何通过PGEN工具生成graminit.h和graminit.c。Grammar文件以BNF定义Python语法，PGEN将Grammar作为输入生成用于语法分析的数据结构。文章还讲解了Grammar.h、DFA、Arc、State等概念，以及Accelerators在提高语法分析速度方面的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Grammar文件

前面提到了在Python的源代码目录下面有一个Grammar目录，里面只有一个文件Grammar，以BNF的语法定义了Python的全部语法。拿if语句举例来说：

if_stmt: 'if' test ':' suite ('elif' test ':' suite)* ['else' ':' suite]

上面的语句可以这样理解，if语句是if关键字+逻辑表达式+ ‘:’+语句块(suite)后面跟上0至多个elif语句并以else语句结束。在最左边的if_stmt表示这一句话定义了if_stmt（非终结符），’:’右边则是if_stmt的具体对应的内容。

1. ‘’引号中的内容是实际的字符串，’if’就代表if这两个字符

2. 一般的标示符代表着非终结符，也就是某个等式的左边，if_stmt, test, suite都是非终结符，可以被扩展为等式右边的序列。

3. ()括号是原子操作符，被括号括起来的被作为单个表达式看待

4. *代表0或多个，比如在if_stmt中的(‘elif’ test ‘:’ suite)*代表一个if语句中可以有0或者多个elif子句

5. +代表1或者多个

但是，这个文件并不只是用来作为参考资料的。实际上，Python运行的时候也需要间接利用到Grammar文件的内容来进行语法分析。

PGEN

在Makefile.pre.in和Parser/grammar.mak中均有类似如下的代码：

##########################################################################

# Grammar

GRAMMAR_H= $(srcdir)/Include/graminit.h

GRAMMAR_C= $(srcdir)/Python/graminit.c

GRAMMAR_INPUT= $(srcdir)/Grammar/Grammar

##########################################################################

# Parser

PGEN= Parser/pgen$(EXE)
POBJS= /

Parser/acceler.o /

Parser/grammar1.o /

Parser/listnode.o /

Parser/node.o /

Parser/parser.o /

Parser/parsetok.o /

Parser/bitset.o /

Parser/metagrammar.o /

Parser/firstsets.o /

Parser/grammar.o /

Parser/pgen.o

PARSER_OBJS= $(POBJS) Parser/myreadline.o Parser/tokenizer.o

PGOBJS= /

Objects/obmalloc.o /

Python/mysnprintf.o /

Parser/tokenizer_pgen.o /

Parser/printgrammar.o /

Parser/pgenmain.o

PGENOBJS= $(PGENMAIN) $(POBJS) $(PGOBJS)

############################################################################

# Special rules for object files

$(GRAMMAR_H) $(GRAMMAR_C): $(PGEN) $(GRAMMAR_INPUT)

-$(PGEN) $(GRAMMAR_INPUT) $(GRAMMAR_H) $(GRAMMAR_C)

$(PGEN): $(PGENOBJS)

$(CC) $(OPT) $(LDFLAGS) $(PGENOBJS) $(LIBS) -o $(PGEN)

这段代码负责生成pgen，然后调用pgen以Grammar作为输入，生成graminit.h/graminit.c。PGEN是Python自带的语法分析数据生成的工具，负责分析Grammar然后生成对应的graminit.c/graminit.h。然后，Python在运行过程中会依赖graminit.c/graminit.h中的数据结构来进行语法分析。PGEN的具体实现不在本文讨论范围中，从略。

Grammar.h

Graminit.c中定义了包括Python

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。