读书笔记《Mastering Regular Expressions》(一)

Mastering Regular Expressiongs Mastering Regular Expressions

Jerffrey E.F.Friedl著的这本书,闻名已久。九月份从当当网邮购了一本,却一直没有时间坚持读,主要原因当然还是英文差,没有养成阅读英文的习惯和能力。

后悔呀,当初为什么不多花点时间在英语上面。

开篇说的那个可怕的、查找重复单词的需求非常生动,如果是我遇到这样的需求,肯定同样会很苦恼。

  • 检查N个文件,找到重复的单词(比如“this this”),然后报出它们在哪个文件的哪一行,还要用标准ANSI的转义序列来高度显示它们;
  • 不仅如此,还要正确处理这种情况:某行的最后一个单词,与紧跟着的下一(非空)行的第一个单词相同,也就是说要能够跨行工作。
  • 在 查找过程中,还要忽略大小写的区别,并且能把单词之间的任意数量空格都等同于单个空格对待,最重要的是,两个重复单词中的某一个或两个被HTML标记包围 着,那还是算重复单词!比如“...it is <B>very</B> very important...”

这样的需求听上去很讨厌,但有了正则表达式,一切就变得容易了。

下表是基本的元字符:

元字符
名称
匹配行为
备注
^脱字符匹配行的起始位置 
$美圆符匹配行的结束位置 
/<反斜杠及小于符匹配单词的起始边界不是所有版本的的egrep都支持这个特性
/>反斜杠及大于符匹配单词的结束边界
.匹配任意单个字符
[...]字符集匹配所有方括号中列出的字符
[^...]字符非集匹配所有不在方括号中列出的字符 
|或符号匹配或符号分开的的表达式 
(...)圆括号用于指定“或”符号的范围 

注:

  • 如果一个元字符出现在字符集中(被方括号括起来的字符列表),则它不再是元字符,比方,点字符在方括号以外时,它是一个元字符,代表任意字符,如果它出现在方括号里,则代表点字符本身。
  • 在字符集和字符非集中中,如果减号字符出现在第一个字符位置,则它代表减号本身,否则它表示一个范围,比如[-a-z0-9],第一个减号代表减号本身,第二个减号表示范围,与字符a和z一起表示从a至z的26个英文小写字母,第三个减号与第二个减号的意义一样。
  • 字符非集的概念需要仔细,比如,[^X]意味着“只要不是字符X就匹配”,而是“匹配一个不是X的任意字符”,前者的意义可以匹配一个空行,但[^X]并不匹配空行。
  • 某些版本的egrep支持-i参数,以执行忽略大小写的匹配操作。
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值