正则表达式

最新推荐文章于 2024-10-13 17:05:21 发布

candj

最新推荐文章于 2024-10-13 17:05:21 发布

阅读量822

点赞数

文章标签：正则表达式 emacs vim python

本文链接：https://blog.csdn.net/candj/article/details/5053486

版权

Emacs正则替换命令

M-x replace-regexp RET ？RET ？ RET

最短匹配

From: http://blog.csdn.net/kowity/archive/2008/02/05/2084616.aspx

有一次想用正则表达式从网页里面抓取一些东西出来，内容不复杂却出现不少问题。

如果内容是这样，想提取蓝色的部分：

<title a='ff33kie8' /> abcde
<title a='743u4343525fj' />

在 VIM 里面只要用 a='.*' 这样的正则式就可以选出来了。

但是我的要抓取的内容是下面这样，再用上面那个正则式就不行了。

<title a='ff33kie8'/> abcde <title a='sse3'/> abcdef <title a='hhs77565'/> abcdefg <title a='743u4343525fj' />

如果用正则式 a='.*' 的话，选取的部分就是如同上面蓝色的部分。这时候就得用“最短匹配”的方式才行。

<title a='ff33kie8' /> abcde <title a='sse3' /> abcdef <title a='hhs77565' /> abcdefg <title a='743u4343525fj' />

正则式为 a='./{-}' 才能符合我的要求，产生如上的结果。/{-} 这个符号就表示采用最短匹配的方式了。详情请看 VIM 正则表达式的帮助。

正则表达式中的字符：

^          匹配行首



$          匹配行尾



.          匹配任意单个字符



.*         匹配任意个字符



/<         匹配单词的开头



/>         匹配单词的结尾



[]         匹配[]中的任何一个字符，如[a-z]匹配任何一个小写字母

python非贪婪、多行匹配正则表达式例子

From: http://www.juyimeng.com/python-multi-line-non-greedy-regular-expression-sample.html

一些regular的tips：

1 非贪婪flag

>>> re . findall ( r " a( /d +?) " , " a23b " )
[ ' 2 ' ]
>>> re . findall ( r " a( /d +) " , " a23b " )
[ ' 23 ' ]

注意比较这种情况：

>>> re . findall ( r " a( /d +)b " , " a23b " )
[ ' 23 ' ]
>>> re . findall ( r " a( /d +?)b " , " a23b " )
[ ' 23 ' ]

2 如果你要多行匹配，那么加上re.S和re.M标志
re.S：.将会匹配换行符，默认.不会匹配换行符

>>> re . findall ( r " a( /d +)b.+a( /d +)b " , " a23b /n a34b " )
[]
>>> re . findall ( r " a( /d +)b.+a( /d +)b " , " a23b /n a34b " , re . S )
[( ' 23 ' , ' 34 ' )]
>>>

re.M：^$标志将会匹配每一行，默认^和$只会匹配第一行

>>> re . findall ( r " ^a( /d +)b " , " a23b /n a34b " )
[ ' 23 ' ]
>>> re . findall ( r " ^a( /d +)b " , " a23b /n a34b " , re . M )
[ ' 23 ' , ' 34 ' ]

但是，如果没有^标志，