正则表达式入门,一篇就够了

【干货】8分钟正则表达式入门!

大家使用操作系统和办公软件的时候,或多或少会使用通配符这个工具,比如打开终端,输入dir *.txt。然而通配符仅限于问号(?)和星号(*)等等,其中?匹配1个字符,*匹配0到多个字符。这些功能实在太单一了!

作为一名(伪)攻城狮,你可能需要处理大量不同形式的文本,包括新闻稿、程序代码、报表、单词表、诗歌、email、html等等。

我们需要一个所向无敌的“语言”!那就是!正则表达式!!!

没错,这种功能强大的“通用模式语言”,能够解决几乎一切问题。比如,检查用户提供的电子邮件是否符合正确的语法格式。比如,把制表符分隔的文本改成CSV。比如,批量转换日期格式!比如,找到莎士比亚诗歌中所有重复的单词!比如,为URL添加链接!
在这里插入图片描述

PART 1. 思维框架

那么,让我们的主角——正则表达式闪亮登场吧!

正如前面所言,我们可以把正则表达式看成一种“语言”。由单词和语法构成,其中语法就是元字符(metacharacter),即具有特殊含义的字符,而单词就是普通字符。按照“语法”把“单词”组合起来,就能实现匹配、搜索和替换的功能。

就像任何语言一样,正则表达式由小的构建模块单元(building block unit)组成,每个单独的构建模块都很简单,但是将它们以无穷多种方式组合就能表达不同的意思。而我们需要练就一种思维框架,以最准确、精练、易读的方式将它们结合!

在阅读了3本评分最高的正则表达式书籍后,我将正则表达式的知识体系作出如下整理:

在这里插入图片描述

按照上面的思维导图,我们将学习正则表达式的基本语法,也就是元字符,分4个部分展开:

PART 2. 元字符

(1) 单字符.和转义符\

首先,点号.匹配任意单个字符,例如输入2021.2.5,可以匹配2021/2/5,2021-2-5等日期格式。

如果我们需要匹配点号本身,我们可以在前面加一个转义符\,又称跳脱字符(escape character),将后面的句号由元字符变成普通字符,例如\.txt。注意是反斜杠,不是正斜杠/(表示除法)。

转义符除了这个功效,还有两个作用:

一、将某些非元字符变成元字符序列,例如将<>变成单词分界符\<\>

二、后面接普通字符时被忽略掉。

下图列举了常用「转义符+字母」构成的元字符序列,均匹配单个字符:
在这里插入图片描述

(2) 量词:?*+{}

量词紧跟一个单字符(或字符序列)之后,用来指定前者出现的次数。因此不可单独使用。

?问号表示可选项,也就是前面的字符可有可无,数学上的意义是前面的字符出现0~1次。例如t?he

*星号表示前面的字符出现0~无穷次。例如t*he

+加号表示前面的字符出现1~无穷次。例如t+he

除了这三个量词,我们也可以使用{}花括号表示次数区间。例如用[0-9]{6,9}来匹配一行6~9位的连续数字,比如邮政编码和电话,或者用[a-z]{4}表示4位单词。

在这里插入图片描述

(3) 结构:

[]字符组、排除型字符组、区间

[…]方括号表示字符组,匹配其中列出的任意一个字符。比如gr[ae]y,[Ss]treet。

[^…]是排除型字符组,匹配一个在方括号中未列出的字符。比如q[^u]可以匹配不以qu开头的单词,但不能匹配一个字母q。注意方括号内的脱字符^是排除(negate)的意思,后面我们会介绍脱字符^在括号外是分界符,表示行的起始。

在方括号中加入连字符-表示区间,例如H[1-3]可以匹配html中的标题,即H1、H2或H3。我们也可以写成<.?[Hh][1-6]>用来涵盖大小写等情况。

()子表达式、多选结构和反向引用

(…)可以表示受量词作用的子表达式,比如<HR( *SIZE * = *[0-9]+)?.*>可以匹配size为14的tag,或者未规定size的tag。

括号还有两个作用:

(…|…)是多选结构,匹配竖线分隔两边的任意一个子表达式,比如用(From|Subject|Date):匹配email的不同信息。

(…)(…)\1\2表示反向引用,用\1\2等表示第一、第二组括号匹配的文本。比如(the).*\1等同于the.*the

在这里插入图片描述

(4)分界符

\b是单词分界符,比如\bcat\b。有时候也可以用\<…\>表示,但各个版本、各个语言不一定都支持这种用法。

至于行分界符,^表示行的起始,$表示行的结束(匹配换行符之前的位置),比如^cat$。也可以用\A\Z匹配字符串的开头与结尾。

总结

从单字符、量词、字符组到分界符,我们看到小的单元是如何组合成一个个子序列,形成精确、完整的表达式。其中可能包含一些复杂的结构,比如多选结构和反向引用等。

我们也发现,元字符在不同的位置可能代表不同的含义。比如脱字符^在字符组内外,发挥不同的作用。转义符和括号,各有三种功能,等等。
在这里插入图片描述

至此就算入门了,为了巩固和深化这些知识点,我们需要结合实际案例,多多运用!下面这些①中英文电子书籍是我比较推荐的,里面有大量练习题,可以在②网站上试着做做:

①参考书籍(按推荐顺序排列):

精通正则表达式 (Mastering Regular Expressions)

正则表达式必知必会 (Sams Teach Yourself Regular Expressions in 10 Minutes)

正则表达式经典实例 (Regular Expressions Cookbook)

②网站:

https://regex101.com/

我收藏了这些书籍的电子版,大家去我的公众号后台回复“regex”可得!

公众号:鸽婆打字机(ID:gepo666)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值