正则习点 --- 14

最新推荐文章于 2024-06-20 14:35:51 发布

iteye_6233

最新推荐文章于 2024-06-20 14:35:51 发布

阅读量83

点赞数

文章标签： awk

Chapter 5. Practical RegexTechniques

5.1. Regex Balancing Act

好的正则表达式必须在这些方面求得平衡：

lMatching what you want, butonly what you want

只匹配期望的文本，排除不期望的文本。

lKeeping the regex manageableand understandable

必须易于控制和理解。

lFor an NFA, being efficient(creatinga regex that leads the engine quickly to a match or non-match, as the case maybe)

如果使用NFA引擎，必须保证效率（如果能够匹配，必须很快地返回匹配结果，如果不能匹配，应该在尽可能短的时间内报告匹配失败）。

5.2. A Few Short Examples

5.2.1 Continuing with Continuation Lines

如果不需要点号匹配反斜线，就应该在正则表达式中排除它。

例如：使用「^\w+=[^\n\\]*(\\\n[^\n\\]*)*」匹配：

SRC=array.cbuiltin.c eval.c field.c gawkmisc.c io.c main.c \

missing.cmsg.c node.c re.c version.c

程序如下：

#! /usr/bin/perl -w

$textStr = "SRC=array.c builtin.ceval.c field.c gawkmisc.c io.c main.c \

\nmissing.c msg.c node.c re.c version.c";

$textStr =~/^\w+=([^\n\\]*(?:\\\n[^\n\\]*)*)/;

print $1;

迄今为止，我们的思路都是，“匹配一行，如果还有连续行，就继续匹配”。现在换另外一种思路：集中关注在特定时刻真正容许匹配的字符。

所以，正则表达式就变成了「^\w+=([^\n\\]|\\.)*」。

改造完的程序如下：

#! /usr/bin/perl -w

$textStr = "SRC=array.c builtin.ceval.c field.c gawkmisc.c io.c main.c \

\nmissing.c msg.c node.c re.c version.c";

# $textStr =~/(^\w+=[^\n\\]*(?:\\\n[^\n\\]*)*)/;

# improve

$textStr =~ /^\w+=((?:[^\n\\]|\\.)*)/;

print $1;

5.2.2 Matching an IP Address

我们使用「^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+$」匹配IP地址这样xxx.xxx.xxx.xxx格式的文本。

注在支持Unicode的系统中，「\d」或许能匹配非ASCII的数字。

因为IP地址是一个3位数字，所以：

「^d{1, 3}\. d{1,3}\. d{1, 3}\. d{1, 3}$」

这个区间量词是完全可以接受的。

但是，他也会接受像“999”这样的。

因为所有数都必须小于255，所以：

「[01]?\d\d?|2[0-4]\d|25[0-5]」

能完成这个任务。

那么整个表达式就是：

「^([01]?\d\d?|2[0-4]\d|25[0-5])\.([01]?\d\d?|2[0-4]\d|25[0-5])\. ([01]?\d\d?|2[0-4]\d|25[0-5])\.([01]?\d\d?|2[0-4]\d|25[0-5])$」

5.2.3 Working with Filenames

I. Accessing the filename from a path

对于Unix文件名：

「([^/]*)$」

对于Windows文件名：

「([^\\]*)$」

请看示例：

#! /usr/bin/perl -w

# unix path

$uPathStr = "/lib/awk/grcat.out";

# windows path

$winPathStr = "C:\\ProgramFiles\\Movie Maker\\moviemk.exe";

$uPathStr =~ m{([^/]*)$};

print "Unix filename: $1 \n";

$winPathStr =~ /([^\\]*)$/;

print "Windows filename $1 \n";

注意，在使用查找文件名之类的问题，尽量不要用正则！此例会进行大量的回溯！

5.2.4 Matching Delimited Text

Always consider the “odd” cases in whichyou don’t want a regex to match, such as with “bad” data.

针对“糟糕(bad)”的数据，正则表达式不应该能够匹配！

5.2.5 Stripping Leading and Trailing Whitespace

去除行首的空格：

s/^\s+//

去除行尾的空格：

s/\s+$//

使用「+」而不使用「*」的原因是增加效率。因为如果事实上没有需要删除的空白字符，就不用做替换。

为了对比，我们看3个糟糕的正则表达式：

Øs/\s*(.*?)\s*$/$1/s

这个表达式所用时间是简单方法的5倍。之所以效率这么低，是因为忽略优先约束的点号每次应用时都要检查「\s*$」。这需要大量的回溯。

Øs/^\s*((?:.*\S)?)\s*$/$1/s

在「^\s*」匹配了文本开头的空格之后，「.*」马上匹配到文本的末尾。后面的「\S」强迫他回溯直到找到一个非空的字符，把剩下的空白字符留给最后的「\s*$」，捕获括号之外的。这个表达式所用时间是简单方法的2倍。

Øs/^\s+|\s+$//g

这是最容易想到的正则，但他不正确（其实这三个都不正确），这种顶级的(top-leveled)多选分支排列严重影响本来可能使用的优化措施。这个表达式所用时间是简单方法的4倍。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则习点 --- 14

Chapter 5. Practical RegexTechniques5.1. Regex Balancing Act好的正则表达式必须在这些方面求得平衡：lMatching what you want, butonly what you want只匹配期望的文本，排除不期望的文本。lKeeping the regex manageableand unders...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。