程序员必须掌握的基本正则表达式(一)

转载 2007年09月26日 08:55:00
摘要:本文是正则表达式系列教程的第一篇,作者抛开深奥的概念,用最平实的写法描述了编程中的利器:正则表达式的基本语法,平时做为案头参考也很有用处,希望对广大战斗在程序领域的同仁有所帮助。

正则表达式是什么东东?

正则表达式是使用一套特殊符号模式做为表达格式的字符串,主要用处是描述和解析文本。许多程序员(甚至一些不错的高手)都无视(也不用)正则表达式,我认为这是一个耻辱,因为在解决很多问题的时候,正则表达式常常让我们有得心应手的感觉。一旦你掌握了,就会发现它能解决无数真实世界的问题。

正则表达式的工作方式就象Windows或者*nix系统里面的文件名替代符 - 你可以使用特定的*或者?来指定一系列文件。但是使用正则表达式的特殊字符或者metacharacters(元字符)来表示这类事情会更准确。

正则表达式把大多数字符当作直接字符,就好像正则表达式 mike,将只会匹配按顺序的字符序列m - i - k - e。与此同时正则表达式使用一个采用元字符的扩展集合,可以表示非常复杂的文字匹配。

认识元字符: ^[](){}.*?/|+$ 以及在某些时候出现的 -

我知道它们看上去很恐怖,但是一旦你了解它们就会知道它们是很可爱的符号。

行定位点: ‘^’ 和 ‘$’

‘^’ (读成:caret) 和 ‘$’ (读成:dollar) 这两个元字符分别代表一行文字的开始和结束。就象我前面举的例子,正则表达式mike会匹配字符序列m - i - k – e,可是它会匹配一行中的所有位置 (比如,它会匹配 “I’m mike”或者 “carmike”)。 ‘^’字符被用来限定匹配行的开始,因此^mike 将只会寻找以mike开始的行。同样,表达式mike$将只会寻找m - i - k - e在一行末尾的(当然还是会匹配 ‘carmike’)。

如果我们联合使用这两个行定位点字符,我们可以搜索在多行文字中寻找包含的特殊字符串序列。比如:表达式 ^mike$ 将只会匹配占有单独一行的单词mike,一个字不多一个字不少。同样,表达式 ^$ 对于发现空行(一行开始就是本行结束的那种)很有用。

字符分类: ‘[]’

一对方括号被称为一个字符分类, 你可以用来匹配任何一个或多个字符。假设你想匹配单词 ‘gray’,同时也想找一下被拼写成 ‘grey’的单词。 使用一个字符分类将允许你匹配这两者 -- 正则表达式 gr[ea]y 被解读成 “匹配这样的字符串 - 一个g, 跟着是r, 跟着或者是一个e或者是一个a, 跟着一个y”。

如果你用 [^ ... ] 代替 [ ... ], 这个分类将匹配后面列出来字符以外的任何字符。首字符 ^ 表示“否定"列表 - 不同于你列出所有希望包含的字符,你是去列出所有不想包含的字符。 注意在这里使用的^ (caret) 字符,它在字符分类方式之外使用表示另外的意思 - 用来匹配文字行的开始(见文章前面部分)。

字符分类中的元字符: ‘-’

在一个字符分类中,字符分类中的元字符 ‘-’ (dash) 用来指出一个字符范围。考虑字符分类 [01234567890abcdefABCDEF],采用’-’的话我们可以这样写[0-9a-fA-F],方便了不少吧。有一点大家要注意的,这个’-’符号只有用一个字符分类中才被认为是元字符,在其他位置,它只是简单的匹配普通的’-’字符,没有任何其他意义。

但是且慢,我看到有人举手质疑。假如在一个字符分类里面,’-’字符做为第一个字符出现的时候,会把它认为成什么呢?比如[-A-F],问题很好,注意:这是一个例外,如果在字符分类中,’-’字符是第一个出现的字符,那我们把它当作普通字符而不是元字符处理(因为实际上它不可能表示一个字符范围,范围需要有开始和结束字符),这个时候它只会匹配一个普通的’-’字符。引申开来,我们再说一个例外:S’?’和’.’在大多数情况下都是正则表达式的元字符,但是有个例外是在字符分类中,当它们在字符分类中的时候(比如在:[-0-9.?],它们只是代表一个普通字符,唯一的特殊字符(元字符)是0和9中间的’-’)。

用一个句点: ‘.’匹配任何字符

‘.’ 元字符(一般读成a dot 或者point)是一种匹配任何字符的写法。在你想在一个字符串的指定位置匹配一个任意字符的时候,它显得非常可爱。再强调一遍,在字符分类中,’.’就不是一个元字符了。到现在为止,你开始看出一些门道来了吧?哪些是元字符哪些不是元字符在字符分类里面和外面是不一样的。

选择性元字符: ‘|’

‘|’ 元字符(读成pipe)的意思是“or”。它允许你把多个表达式合成到一个表达式,然后匹配里面任何单个表达式的结果。这些子表达式被称为备选项。

例如:Mike 和 Michael 是两个独立的正则表达式,但是Mike|Michael 这样来写的话,这个正则表达式匹配任意一个单词。

圆括号在这里可以被用来限制备选的范围。我们可以使用圆括号来达到和上面这个正则表达式同样的目的,同时缩短它长度,正则表达式Mi(ke|chael) 同样匹配Mike或者Michael。当然,在实际程序中我还是会用第一种写法,虽然长了一点,可是更容易理解,因此也更容易维护。

匹配可选项: ‘?’

‘?’ 元字符(读成:question mark)意味着可选。它放在正则表达式的某个位置的一个字符后面,这个字符允许在匹配结果中出现,也可以不出现。当然,我们可以肯定的是:这个’?’字符只能跟在一个普通字符而不是元字符后面。

如果我想匹配英式或者美式拼法的单词‘flavor’ ,我会用正则表达式flavou?r,它被解读成:“匹配一个字符串:f,跟着一个l,跟着一个a,跟着一个v,跟着一个o,跟着一个可选的u,跟着一个r”。

数量符号: ‘+’ and ‘*’

象’?’字符一样,‘+’ (读成plus)和‘*’(读成star)元字符影响前导字符(就是在这个符号前面的字符)可以在匹配字符串中出现的数量 (使用前面说的‘?’的话,相当于前导字符可以出现0次或一次)。元字符‘+’ 匹配前面出现的项目一次或更多次,而‘*’ 则表示匹配任何次,包括0次。

如果我想通过在一场足球比赛中解说员说’goal’的声音次数来统计比分的话,我应该用正则表达式go+al, 它可以匹配‘goal’,也可以匹配一些激情主播的‘gooooooooooooooooal’ (但肯定不会是 ‘gal’)。

前面的三个元字符:’?’、’+’、’*’一般又叫做计量符。因为它们影响前面项目的数量。

数量范围: ‘{}’

‘{最小, 最大}’ 这个元字符序列允许你指定特定项目可以被匹配的最少和最大次数。例如go{1,5}al 可以用来限制我们上面的例子,只匹配1到5次o。同样的{0,1} 其实就等同于一个’?’元字符。

转义字符: ‘/’

‘/’ 元字符(读成:backslash)被用来转换指定的元字符的含义,以便于你可以把它们当成普通字符来匹配。例如,你打算匹配字符’?’或者’/’,你就可以在它们前面加上一个’/’字符,这样它们就被转换成普通字符的含义,就好像这样写:‘/?’ or ‘//’.

如果在一个非元字符前面使用’/’的话,那么根据你使用正则表达式的语言不同,会有不同的含义,必须参阅相应的手册。比较普遍采用的是perl兼容的正则表达式(PCREs),你可以在这里查看the perldoc page for perl regular expressions. PCREs用得非常普遍,在PHP、 Ruby和ECMAScript/Javascript还有很多语言中都可以使用。

用圆括号匹配: ‘()’

大部分正则表达式工具允许你用圆括号设定一个特定的表达式子集。比如,我们可以用一个正则表达式http://([^/]+)去匹配一个URL的域名部分。下面让我们把这个正则表达式分解开,看看它是如何工作的。

这个表达式的起始部分非常直白:它必须匹配“h - t - t - p - : - / - /”这样的字符序列。这个初始序列之后就是圆括号了,它被用来捕捉符合它们包围的子表达式的字符。在现在的例子中,子表达式是‘[^/]+’,用上面学到的知识,我们知道它实际上是匹配除了‘/’字符以外的任何字符一次到多次。对于一个像是 http://immike.net/blog/Some-blog-post的URL,‘immike.net’ 将会被这个圆括号里面的表达式所匹配。

希望进一步学习?

本文中,我只是介绍了正则表达式可以做的一些工作的皮毛。如果你想进一步学习,可以阅读Jeffrey Friedl的大作:Mastering Regular Expressions。 Friedl的这本书写得很棒,它非常容易理解,阅读起来很愉快,让你非常有兴趣读完,绝不是那种干巴巴的教科书。

你也可以期待阅读我接下来的文章,我会讲述一些在一般编程中最有用处的正则表达式。 

常用排序算法/程序员必须掌握的8大排序算法

分类: 1)插入排序(直接插入排序、希尔排序) 2)交换排序(冒泡排序、快速排序) 3)选择排序(直接选择排序、堆排序) 4)归并排序 5)分配排序(基数排序) 所需辅助空间最多:...
  • u012109105
  • u012109105
  • 2015年08月07日 18:04
  • 1212

一个Java程序员应该掌握的10项技能

1、语法:必须比较熟悉,在写代码的时候IDE的编辑器对某一行报错应该能够根据报错信息知道是什么样的语法错误并且知道任何修正。 2、命令:必须熟悉JDK带的一些常用命令及其常用选项,命令至少需要熟悉:...
  • w1014074794
  • w1014074794
  • 2015年10月27日 15:10
  • 860

程序员到底需要掌握几种语言

程序员到底要学习或掌握几种语言呢,这个问题很多人都很纠结,想学怕浪费时间,不学呢感觉少了点什么。 结论:当你犹豫时,只要有时间,学比不学好,长见识,长广度。 那到底一个程序员需要掌握几种语...
  • doitsjz
  • doitsjz
  • 2015年11月22日 11:02
  • 2161

Java常用排序算法/程序员必须掌握的8大排序算法

分类: 1)插入排序(直接插入排序、希尔排序) 2)交换排序(冒泡排序、快速排序) 3)选择排序(直接选择排序、堆排序) 4)归并排序 5)分配排序(基数排序) 所需辅助空间最多:归并排序 所需辅...
  • xionglangs
  • xionglangs
  • 2016年02月26日 16:18
  • 554

java程序员必须掌握的 正则表达式

最全的常用正则表达式大全 2016-01-09 Linux爱好者 (点击上方公号,可快速关注) 作者:zxin 链接:http://www.cnblogs.com/zxin/arc...
  • u014726937
  • u014726937
  • 2016年01月11日 14:24
  • 378

快速掌握正则表达式,掌握常用的就ok

正则表达式其实只需要会用一些常用的的字符匹配规则,就能够写出大多数的字符匹配规则,下面就直接介绍一下常用正则表达式的匹配: .--匹配任意一个字符 X*--表示字符X出现了0次或者多次 X+--表示字...
  • eyishion
  • eyishion
  • 2016年04月06日 16:23
  • 1113

iOS 性能调优, 成为一名合格 iOS 程序员必须掌握的技能

提供了基于Swift3.0模仿的新浪微博的Demo,大家可以下载看一看:基于Swift3.0高仿的微博客户端,里面针对于微博首页的复杂页面的优化做了很多的处理,页面的FPS 一直保持在59 ~ 6...
  • qq_34047841
  • qq_34047841
  • 2016年11月04日 18:15
  • 779

一个优秀的程序员应该具备哪些技能和修养?

李运华:这个问题就像“1千个人眼中有1千个哈姆雷特”一样,每个人都有不同的看法。我认为一个优秀的程序员应该具备如下技能和修养: 首先是“快速学习能力”。这里不是说一定要去快速去学习各种各样的新技术,...
  • kpchen_0508
  • kpchen_0508
  • 2014年11月01日 14:31
  • 1271

软件工程师必须掌握的知识结构

软件工程师必须掌握的知识结构       软件工程师必须掌握以下知识结构,给那些准备从事软件工程师的人一些指导。 1.编程开发工具. 至少熟练掌握两到三种开发工具的使用, 这是程序员的立身之本....
  • top_worker
  • top_worker
  • 2015年04月15日 18:17
  • 980

php程序员应该掌握的10个技能,看看你都掌握了哪些?

1、语法:必须熟练掌握 ,写代码的时候IDE的编辑器对某一行报错应该能够根据报错信息知道是什么样的语法错误并且知道任何修正。   2、命令:必须熟悉PHP带的一些常用命令及其常用选项,熟悉那些命令,...
  • ljxkey
  • ljxkey
  • 2013年03月30日 20:40
  • 1660
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:程序员必须掌握的基本正则表达式(一)
举报原因:
原因补充:

(最多只允许输入30个字)