python中parse的含义_在Python中使用SimpleParse模块进行解析的教程

最新推荐文章于 2024-02-07 22:13:02 发布

weixin_39969568

最新推荐文章于 2024-02-07 22:13:02 发布

阅读量483

点赞数

文章标签： python中parse的含义

本文链接：https://blog.csdn.net/weixin_39969568/article/details/112924284

版权

与大多数程序员一样，

我经常需要标识存在于文本文档中的部件和结构，

这些文档包括：

日志文件、配置文件、分隔的数据以及格式更自由的(但还是半结构化的)报表格式。所有

这些文档都拥有它们自己的“小语言”

，用于规定什么能够出现在文档内。

我编写处理这些非正式解析任务的程序的方法总是有点象大杂烩，其中包括定制状态

机、正则表达式以及上下文驱动的字符串测试。这些程序中的模式大概总是这样：

“读一些

文本，弄清是否可以用它来做些什么，然后可能再多读一些文本，一直尝试下去。

”

各种形式的解析器将文档中部件和结构的描述提炼成简明、清晰和

说明性的规则，该

规则规定了如何标识文档的组成部分。

这里，

说明性方面是最引人注目的。

我所有的旧的特

别的解析器都采用了这种风格：读一些字符、作决定、累加一些变量、清空、重复。正如本

专栏关于函数型编程的部分文章中所评述的，

程序流的方法风格相对来说容易出错并且难以

维护。

正式解析器几乎总是使用扩展巴科斯范式

(

Extended Backus-Naur Form(EBNF)

)

上的变

体来描述它们所描述语言的“语法”

。我们在这里研究的工具是这样做的，流行的编译器开

发工具

ACC

(及其变体)

也是这样做的。

基本上，

EBNF

语法对您可能在文档中找到的

部

件赋予名称；

另外，

经常将较小的部件组成较大的部件。

由运算符

―

通常和您在正则表达

式中看到的符号相同

―

来指定小部件在较大的部件中出现的频率和顺序。在解析器交谈

(

parser-talk

)中，语法中每个命名的部件称为一个“产品(

production

)

”

。

可能读者甚至还不知道

EBNF

，却已经看到过运行的

EBNF

描述了。例如，大家熟悉

的

Python

语言参考大全

(

Python Language Reference

)

定义了浮点数在

Python

中是什么样

子：

EBNF

样式的浮点数描述

floatnumber: pointfloat | exponentfloat

pointfloat: [intpart] fraction | intpart "."

exponentfloat: (nonzerodigit digit* | pointfloat) exponent

intpart: nonzerodigit digit* | "0"

fraction: "." digit+

exponent: ("e"|"E") ["+"|"-"] digit+

或者您可能见过以

EBNF

样式定义的

XML

DTD

元素。例如，

developerWorks

教程

的

<body>

类似于：

developerWorks DTD

中

EBNF

样式的描述

复

制

代

码

代

码

如

下

:<!ELEMENT

body

((example-column

image-column)?,

text-column) >

拼写稍有不同，但是量化、交替和定序这些一般概念都存在于所有

EBNF

样式的语言

语法中。

使用

SimpleParse

构建标记列表

SimpleParse

是一个有趣的工具。要使用这个模块，您需要底层模块

mxTextTools

，它

用

实现了一个

“标记引擎”

。

mxTextTools

(请参阅本文后面的

参考资料)

的功能强大，

但是相当难用。一旦在

mxTextTools

上放置了

SimpleParse

后，工作就简单多了。

使用

SimpleParse

确实很简单，因为不需要考虑

mxTextTools

的大部分复杂性。首先，

应该创建一种

EBNF

样式的语法，

用来描述要处理的语言。

第二步是调用

mxTextTools

来

创建一个

标记列表，当语法应用于文档时，该列表描述所有成功的产品。最后，使用

mxTextTools

返回的标记列表来进行实际操作。

weixin_39969568

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫