perl和python正则表达式_Perl, Python和Emacs中正则表达式的比较

正则表达式非常方便,但是在不同场景下的实现不尽相同。本文将对正则表达式在Perl, Python和Emacs中的异同作一些总结,但不能做到面面俱到。

文中的提到“Python”正则,指的是2015年底re模块所实现的版本,据说还有一些更兼容Perl的选项,将来可能会被合并到官方版中。

此外,本文注重正则表达式的语法,而非如何使用。更多地关注于常见任务中正则表达式的比较,比如在Perl和Python中的搜索与替换。

Emacs, Python, Perl中正则表达式的共同特性

在所有的实现中,最基本的regex特征都是一致的:通配符(.),量化符(*,+,?),锚点(^,$),[]内的字符和反向引用(\1,\2,\3)等。

最新的Emacs版本支持\b表示词边界(word boundaries),\B表示非词边界(non-word boundaries),\w表示单词字符(word characters),\W表示非单词字符(non-word characters)。

通常Emacs只支持最古老的正则特性,但也支持相对较新的非贪婪量化符(non-greedy quantifiers),如*?,+?,??。

Emacs中的基本特性都需要反斜杠(\)

替换符在Perl和Python中都是用|表示,但在Emacs中必须写成\|,类似地,括号在Emacs中也必须转义为\(和\)。同样的还有表示匹配次数的大括号\{和\}。

Emacs支持的一个新特性是非分组括号(non-grouping parentheses),然而这也需要用反斜杠转义作:\(?:...\)。

Emacs特有的特性

语法类

Emacs中的语法类以\s打头,跟其他正则惯例一样,否定使用大写字母\S。

例如,\s.表示任意标点符号,而\S.表示任何非标点。Emacs还使用\s(和\s)表示定界符(分隔符,delimiters)的开始与结尾,\s表示注释的开头和结尾,等等。

需要注意的是,由于Emacs使用\s和\S表示语法类,所以就不能像Perl和Python一样来表示空格和非空格。因此,Emacs中空格表示为\s-,非空格表示为\S-。

字符类

字符类类似于语法类,但以\c和\C打头表示是或否。这类似于Perl中的Unicode属性\p{}和\P{}。

例如,\cg代表任意希腊字母,\Cg表示任意非希腊字母。可以通过运行M-x describe-categories查看更多字符类的信息。

Python和Perl中有,而Emacs没有的特性

Perl和Python都可以使用(?aimsx)对正则表达式进行修改。例如,(?i)可使正则不区分大小写。

也可以使用(?#...)引入注释。

Perl和Python使用相同的语法进行正向或反向查找:(?=), (?!), (?<=),和(?

Perl和Python都支持锚点\A和\Z,以及\d, \D, \s和\S。

这两种语言都使用(?P)和?P=name)来命名和引用一个capture。Perl亦有其自己的语法。

Perl中有,Python中没有的特性

Perl正则相比于Python,其拥有的最大特点是Unicode字符类。(即这篇文章撰写时,Python的remodule还不支持的。)使用\p{}和\P{}表示该类及其否定。

Perl中的\X是Unicode中.的变体,Programming Perl这样描述它:

\X可以匹配一个用户可见的字符(grapheme),即使这需要几个程序员可见的字符(code-points)才能匹配。

Perl还有的一些特征是,用\Q和\E来引用,用\l和\u表示大小写,用\L或\U表示小写或大写的字符序列,用\E来结束。

Perl的正则表达式还有很多特性没有一一列出。

更多资源请见:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值