Python 的 shlex 模块：简单词法分析的利器

本文链接：https://blog.csdn.net/tekin_cn/article/details/145963940

Python 的 shlex 模块：简单词法分析的利器

本文将深入介绍 Python 的shlex模块，该模块用于编写类似 Unix shell 的简单词法分析程序，在解析带引号的字符串、编写 “迷你语言” 等场景中发挥重要作用。通过对shlex模块的函数、类、解析规则以及应用示例的详细讲解，帮助读者全面掌握其使用方法，同时对比类似模块，推荐学习资源，助力读者深入理解和运用shlex模块。

文章目录

Python 的 shlex 模块：简单词法分析的利器

一、shlex 模块概述

shlex模块是 Python 标准库的一部分，其源代码位于Lib/shlex.py。它主要用于将字符串按照类似 Unix shell 的语法进行词法分析，把字符串拆分成一个个词法单元（token），也可以将词法单元列表重新组合成字符串。该模块通常应用于编写 “迷你语言”（如 Python 应用程序的运行控制文件）或解析带引号的字符串场景，为开发者处理命令行输入、配置文件解析等任务提供了便利。

二、shlex 模块的函数

（一）`shlex.split(s, comments=False, posix=True)`

该函数用于按照类似 shell 的语法拆分字符串s。comments参数默认为False，表示不解析字符串中的注释（shlex实例的commenters属性设为空字符串）。posix参数默认为True，表示采用 POSIX 模式进行拆分；若设为False，则采用非 POSIX 模式。在 Python 3.12 版本中，传入None作为s参数会引发异常，而不再是读取sys.stdin。例如：

from shlex import split
s = "echo -n 'Hello, World!'"
result = split(s)
print(result)

上述代码将字符串"echo -n 'Hello, World!'"按照 POSIX 模式进行拆分，输出结果为['echo', '-n', 'Hello, World!']。

（二）`shlex.join(split_command)`

join函数与split函数相反，用于将列表split_command中的词法单元串联起来，返回一个字符串。为防止注入漏洞，返回值会经过 shell 转义（类似于quote函数的处理）。该函数在 Python 3.8 版本中添加。例如：

from shlex import join
split_command = ['echo', '-n', 'Multiple words']
result = join(split_command)
print(result)

运行上述代码，输出结果为echo -n 'Multiple words'，实现了将词法单元列表转换为字符串的功能。

（三）`shlex.quote(s)`

quote函数返回经过 shell 转义的字符串s，确保返回的字符串可以安全地用作 shell 命令行中的词法单元，适用于不能使用列表传递参数的场合。需要注意的是，shlex模块仅适用于 Unix shell，在不兼容 POSIX 的 shell 或其他操作系统（如 Windows）的 shell 上，quote函数可能无法正常使用，甚至存在命令注入漏洞。建议在这些场景下使用命令参数以列表形式给出的函数，如带shell=False参数的subprocess.run()。例如：

from shlex import quote
filename ='somefile; rm -rf ~'
command = 'ls -l {}'.format(quote(filename))
print(command)

上述代码对可能存在安全风险的文件名进行了转义处理，避免了命令注入漏洞。

三、shlex 类详解

（一）构造函数`shlex.shlex(instream=None, infile=None, posix=False, punctuation_chars=False)`

shlex类的实例是词法分析器对象，构造函数用于初始化词法分析器。

instream：指定读取字符的输入源，可以是具有read()和readline()方法的文件 / 流对象，也可以是一个字符串。若未指定，默认从sys.stdin获取输入。
infile：第二个可选参数，是一个文件名字符串，用于设置infile属性的初始值。当instream参数被省略或等于sys.stdin时，infile默认为"stdin"。
posix：定义操作模式，默认值为False，表示工作于兼容模式；若设为True，则尽可能应用 POSIX shell 解析规则。
punctuation_chars：该参数在 Python 3.6 版本中添加，用于控制对特定字符的解析方式。默认值为False，保持 Python 3.5 及更早版本的行为。若设为True，();<>|&这些字符将作为独立的词法单元被返回（视作标点符号）；若设为非空字符串，则这些字符将被用作标点符号，同时出现在punctuation_chars中的wordchars属性中的字符会从wordchars中删除。punctuation_chars只能在创建shlex实例时设置，之后无法修改。

（二）常用方法

get_token()：返回一个词法单元。首先检查词法单元堆栈，若堆栈中有元素，则从堆栈中弹出一个词法单元；否则从输入流中读取一个。当读取到文件结束符时，在非 POSIX 模式下返回空字符串''，在 POSIX 模式下返回None。
push_token(str)：将字符串str压入词法单元堆栈，后续调用get_token()时会优先从堆栈中获取该词法单元。
read_token()：读取一个原始词法单元，忽略堆栈且不解释源请求，通常较少使用。
sourcehook(filename)：当shlex检测到源请求（source属性）时调用，应返回一个由文件名和打开的文件对象组成的元组。该方法主要用于实现路径搜索、添加文件扩展名等功能。
push_source(newstream, newfile=None)：将输入源流压入输入堆栈，若指定了newfile参数，后续错误信息中会使用该文件名。sourcehook()方法内部会调用此方法。
pop_source()：从输入堆栈中弹出最后一条输入源，当遇到输入流的文件结束符时，内部也会调用此方法。
error_leader(infile=None, lineno=None)：生成一条错误信息的首部，格式为'"%s", line %d:'，其中%s会被替换为当前源文件的名称，%d会被替换为当前输入行号（可通过可选参数覆盖），用于以标准的、可解析的格式生成错误信息。

（三）实例变量

控制解析行为的变量
- commenters：被视为注释起始的字符串，从注释起始到行尾的字符都会被忽略，默认值为'#'。
- wordchars：可连成多字符词法单元的字符串。默认包含所有 ASCII 字母数字和下划线，在 POSIX 模式下，Latin - 1 字符集的重音字符也包含在内。若punctuation_chars不为空，可出现在文件名规范和命令行参数中的~-./*?=<字符也会包含在内，同时punctuation_chars中的字符会从wordchars中移除。若whitespace_split设为True，该规则无效。
- whitespace：被视为空白符并跳过的字符，是词法单元的边界，默认包含空格、制表符、换行符和回车符。
- escape：在 POSIX 模式下，被视为转义字符，默认值为'\'。
- quotes：被视为引号的字符，词法单元中的字符会累至再次遇到同样的引号，默认包含 ASCII 单引号和双引号。
- escapedquotes：quotes中的字符会解析escape定义的转义字符，仅在 POSIX 模式下使用，默认值为'"'。
- whitespace_split：若为True，则只根据空白符拆分词法单元；与punctuation_chars一起使用时，会根据空白符和指定的标点符号拆分词法单元。在 Python 3.8 版本中，punctuation_chars属性已与whitespace_split属性兼容。
记录状态的变量
- infile：当前输入的文件名，可能在实例化时设置，也可能由源请求堆栈生成，用于构建错误信息。
- instream：shlex实例正在从中读取字符的输入流。
- source：默认值为None，若给定一个字符串，则会识别为包含请求，类似于 shell 中的source关键字，用于指定新的输入源。
- debug：若该属性为大于1的数字，shlex实例会详细输出动作进度，可通过阅读源代码了解详细信息。
- lineno：源的行数（到目前为止读到的换行符数量加 1）。
- token：词法单元的缓冲区，在捕获异常时可能会用到。
- eof：用于确定文件结束的词法单元，在非 POSIX 模式下为''，在 POSIX 模式下为None。
- punctuation_chars（只读）：表示应视作标点符号的字符，标点符号将作为单个词法单元返回，但不会进行语义有效性检查。

四、解析规则对比

解析规则	非 POSIX 模式	POSIX 模式
引号处理	不识别单词中的引号（如`Do"Not"Separate`解析为一个单词）；成对的引号会分离单词（如`"Do"Separate`解析为`"Do"`和`Separate`）	引号会被剔除，且不会拆分单词（如`"Do"Not"Separate"`解析为`DoNotSeparate`）
转义字符	不识别转义字符	未加引号包裹的转义字符（如`'\'`）保留后一个字符的字面意思
引号内字符处理	引号包裹的字符保留字面意思	若引号中的字符不属于`escapedquotes`（例如`"'"`），保留引号中所有字符的字面值；若属于`escapedquotes`（例如`'"'`），保留引号中所有字符的字面意思，属于`escape`中的字符除外。仅当后跟后半个引号或转义字符本身时，转义字符才保留其特殊含义，否则视作普通字符
文件结束标识	EOF 用空字符串（`''`）表示	EOF 用`None`表示
空字符串处理	空字符串无法解析，即便是加了引号	允许出现引号包裹的空字符串（`''`）

五、应用示例

（一）简单字符串拆分与重组

from shlex import split, join

# 拆分字符串
s = "echo -e 'Hello\nWorld'"
split_result = split(s)
print(split_result)  

# 重组字符串
join_result = join(split_result)
print(join_result)

上述代码展示了split和join函数的基本用法，先将字符串拆分成词法单元列表，再将列表重组为字符串。

（二）使用 shlex 类解析字符串

import shlex

text = "a && b; c && d || e; f >'abc'; (def \" ghi\")"
s = shlex.shlex(text, posix=True)
s.whitespace_split = True
print(list(s))  

s = shlex.shlex(text, posix=True, punctuation_chars=True)
s.whitespace_split = True
print(list(s))

这段代码通过创建shlex类的实例，展示了在不同punctuation_chars设置下对字符串的解析结果。

六、与类似模块对比

对比项	shlex 模块	re 模块	argparse 模块
功能	按照类似 Unix shell 的语法进行词法分析，将字符串拆分为词法单元，或重组词法单元为字符串	基于正则表达式进行文本匹配、替换、分割等操作，功能更强大、灵活，但使用相对复杂	用于解析命令行参数，生成帮助信息，处理命令行选项和参数的各种情况
适用场景	适用于解析类似 Unix shell 命令行的字符串，编写 “迷你语言”，处理带引号字符串	适用于各种文本处理场景，如文本清洗、数据提取、格式验证等	主要用于开发命令行工具，处理命令行参数的解析和验证
特点	简单易用，专注于类 Unix shell 语法的词法分析	高度灵活，可定制匹配规则，但需要掌握正则表达式语法	专门针对命令行参数处理，提供丰富的参数类型检查、默认值设置等功能

总结

shlex模块为 Python 开发者提供了处理类似 Unix shell 语法字符串的便捷方式，通过split、join等函数以及shlex类的各种方法和实例变量，可以轻松实现字符串的词法分析和重组。在实际应用中，要根据具体需求选择合适的模块，同时注意shlex模块在不同模式下的解析规则差异。结合推荐的学习资源深入学习，有助于更好地掌握shlex模块的使用技巧，提升编程能力。