正则表达式的学习

最新推荐文章于 2024-07-28 23:42:25 发布

weixin_34167819

最新推荐文章于 2024-07-28 23:42:25 发布

阅读量120

点赞数

文章标签： shell 操作系统 awk

原文链接：http://blog.51cto.com/singlegod/586340

版权

转自鸟哥的linux私房菜

前言

约略了解了 Linux 的基本指令 ( Shell ) 并且熟悉了 vi 之后，相信您对于敲击键盘与指令比较不陌生了吧？？接下来，底下要开始介绍一个很重要的观念，那就是所谓的『正则表达式』啰！

什么是正则表达式

任何一个有经验的系统管理员，都会告诉您：『正则表达式真是挺重要的！』为什么很重要呢？因为日常生活就使用的到啊！举个例子来说，在您日常处理文书作业时，应该会常常使用到『搜寻/取代』等等的功能吧？这些举动要作的漂亮，就是正则表达式的工作了！

简单的说，正则表达式就是处理字符串的方法，他是以行为单位，来进行字符串的处理行为，他透过一些特殊符号的辅助，可以让使用者轻易的达到搜寻/取代某特定字符串的处理程序！

举例来说，我要找到 VBird 或 Vbird 这个字样，但是不要其它的字符串，该如何办理？如果在没有正则表达式的环境中(例如 MS word)，您或许就得要使用忽略大小写的办法，或者是分别以 VBird 及 Vbird 搜寻两遍。但是，忽略大小写可能会搜寻到 VBIRD/vbird/VbIrD 等等的不需要的字符串，而造成使用者的困扰。

再举个系统常见的例子好了，假设妳发现系统在开机的时候，老是会出现一个关于 mail 程序的错误，而开机过程的相关程序都是在 /etc/rc.d/ 底下，也就是说，在该目录底下的某个档案内具有 mail 这个关键词，好了，此时，您怎么找出来含有这个关键词的档案？？您当然可以一个档案一个档案的开启，然后去搜寻 mail 这个关键词，只是.....该目录底下的档案可能不止 100 个说～如果了解正则表达式的相关技巧，那么只要一行指令就找出来啦！『grep 'mail' /etc/rc.d/*』那个 grep 就是支持正则表达式的工具程序之一！如何～很简单吧！ ^_^y

谈到这里就得要进一步说明了，正则表达式基本上是一种『表示法』，只要工具程序支持这种表示法，那么该工具程序就可以用来作为正则表达式的字符串处理之用。也就是说，例如 vi, grep, awk ,sed 等等工具，因为她们有支持正则表达式，所以，这些工具就可以使用正则表达式的特殊字符来进行字符串的处理。

正则表达式对于系统管理员的用途

那么为何我需要学习正则表达式呢？对于一般使用者来说，由于使用到正则表达式的机会可能不怎么多，因此感受不到他的魅力，不过，对于身为系统管理员的您来说，正则表达式则是一个『不可不学的好东西！』怎么说呢？由于系统如果在繁忙的情况之下，每天产生的讯息信息会多到你无法想象的地步，而我们也都知道，系统的『错误讯息登录档案』的内容(这部份我们在第五篇会详谈)记载了系统产生的所有讯息，当然，这包含你的系统是否被『***』的纪录数据。

但是系统的数据量太大了，要身为系统管理员的你每天去看这么多的讯息数据，从千百行的资料里面找出一行有问题的讯息，呵呵～光是用肉眼去看，想不疯掉都很难！这个时候，我们就可以透过『正则表达式』的功能，将这些登录的信息进行处理，仅取出『有问题』的信息来进行分析，哈哈！如此一来，你的系统管理工作将会『快乐得不得了』啊！当然，正则表达式的优点还不止于此，等您有一定程度的了解之后，您会爱上他喔！

正则表达式的广泛用途

正则表达式除了可以让系统管理员管理主机更为便利之外，事实上，由于正则表达式强大的字符串处理能力，目前一堆软件都支持正则表达式呢！最常见的就是『邮件服务器』啦！

如果您留意因特网上的消息，那么应该不能发现，目前造成网络大塞车的主因之一就是『垃圾/广告信件』了，而如果我们可以在主机端，就将这些问题邮件剔除的话，客户端就会减少很多不必要的频宽耗损了。那么如何剔除广告信件呢？由于广告信件几乎都有一定的标题或者是内容，因此，只要每次有来信时，都先将来信的标题与内容进行特殊字符串的比对，发现有不良信件就予以剔除！嘿！这个工作怎么达到啊？就使用正则表达式啊！目前两大邮件服务器软件 sendmail 与 postfix 以及支持邮件服务器的相关分析套件，都支持正则表达式的比对功能！

当然还不止于此啦，很多的服务器软件、以及套件都支持正则表达式呢！当然，虽然各家软件都支持他，不过，这些『字符串』的比对还是需要系统管理员来加入比对规则的，所以啦！身为系统管理员的你，为了自身的工作以及客户端的需求，正则表达式实在是很需要也很值得学习的一项工具呢！

正则表达式与 Shell 在 Linux 当中的角色定位

说实在的，我们在学数学的时候，一个很重要、但是粉难的东西是一定要『背』的，那就是九九表，背成功了之后，未来在数学应用的路途上，真是一帆风顺啊！这个九九表我们在小学的时候几乎背了一整年才背下来，并不是这么好背的呢！但他却是基础当中的基础！您现在一定受惠相当的多呢 ^_^！而我们谈到的这个正则表达式，与前一章的 BASH shell 就有点像是数学的九九表一样，是 Linux 基础当中的基础，虽然也是最难的部分，不过，如果学成了之后，一定是『大大的有帮助』的！这就好像是金庸小说里面的学武难关，任督二脉，打通任督二脉之后，武功立刻成倍成长！所以啦，不论是对于系统的认识与系统的管理部分，他都有很棒的辅助啊！请好好的学习这个基础吧！ ^_^

延伸的正则表达式

正则表达式除了简单的一组字符串处理之外，还可以作群组的字符串处理，例如进行搜寻 VBird 或 netman 或 lman 的搜寻，注意，是『或(or)』而不是『和(and)』的处理，此时就需要延伸正则表达式的帮助啦！藉由特殊的 ( 与 | 等字符的协助，就能够达到这样的目的！好啦！清清脑门，咱们用功去啰！

Tips:
有一点要向大家报告的，那就是：『正则表达式与万用字符是不一样的东西！』这很重要喔！因为万用字符 (wildcard) 所代表的意义与正则表达式并不相同～要分的很清楚才行喔！所以，学习本章，请将前一章 bash 的万用字符意义先忘掉吧！

基础正则表达式

既然正则表达式是处理字符串的一个标准表示方式，他需要支持的工具程序来辅助，所以，我们这里就先介绍一个最简单的字符串撷取功能的工具程序，那就是 grep 啰！在介绍完 grep 的基本功能之后，就进入正则表达式的特殊字符的处理能力了。

以 grep 撷取字符串

既然要使用 grep 当然就得要先了解一下 grep 的语法啰～

[root@test root]# grep [-acinv] '搜寻字符串' filename 参数说明： -a ：将 binary 档案以 text 档案的方式搜寻数据 -c ：计算找到 '搜寻字符串' 的次数 -i ：忽略大小写的不同，所以大小写视为相同 -n ：顺便输出行号 -v ：反向选择，亦即显示出没有 '搜寻字符串' 内容的那一行！ 范例： [root@test root]# grep 'root' /var/log/secure 将 /var/log/secure 这个档案中有 root 的那一行秀出来  [root@test root]# grep -v 'root' /var/log/secure 若该行没有 root 才将数据秀出来到屏幕上！  [root@test root]# last | grep root 若该行有 root 才将数据秀出来到屏幕上！

grep 是一个很常见也很常用的指令，他最重要的功能就是进行字符串数据的比对，然后将符合使用者需求的字符串打印出来。需要说明的是『 grep 在资料中查寻一个字符串时，是以 "整行" 为单位来进行数据的撷取的！』也就是说，假如一个档案内有 10 行，其中有两行具有你所搜寻的字符串，则将那两行显示在屏幕上，其它的就丢弃了！

而 grep 除了可以进行档案的资料搜寻之外，也常常被应用在 input/output 的数据处理当中，例如常见的管线命令 ( pipe ) 就可以常常见到他的踪影！以上面表格中的例子来看，我们可以发现前两个例子是查寻档案的内容，有没有加上 -v 所显示出来的结果是『相反的！』，而第三个例子则是以 pipe 的功能进行数据的处理的喔！

好了，我们就开始以 grep 来进行正则表达式的简易说明吧！我们先以底下这个档案来作为范例：

[root@test root]# vi regular_express.txt
"Open Source" is a good mechanism to develop programs.
apple is my favorite food.
Football game is not use feet only.
this dress doesn't fit me.
However, this dress is about $ 3183 dollars.
GNU is free air not free beer.
Her hair is very beauty.
I can’t finish the test.
Oh! The soup taste good.
motorcycle is cheap than car.
This window is clear.
the symbol '*' is represented as start.
Oh! My god!
The gd software is a library for drafting programs.
You are the best is mean you are the no. 1.
The world is the same with "glad".
I like dog.
google is the best tools for search keyword.
goooooogle yes!
go! go! Let's go.
# I am VBird

需要特别注意的是，上面这个档案鸟哥是在 Windows 的环境下编辑的，并且经过特殊处理过，因此，他虽然是纯文字文件，但是内含一些 Windows 环境下的软件常常自行加入的一些特殊字符，例如断行字符(^M)就是一例！所以，您可以直接将上面的文字以 vi 储存成 regular_express.txt 这个档案，不过，比较建议直接点底下的连结下载： /linux_base/0330regularex/regular_express.txt 此外，因为不同的语系编码是不一样的，所以，您必须要将语系改成英文语系，才能够进行底下的测试，否则，可能会有显示的内容与底下的输出不符的状况喔！修改语系的方法为：

[root@test root]# LANG=en [root@test root]# export LANG

好了，现在开始我们一个案例一个案例的来介绍吧！

例题一、搜寻特定字符串：
搜寻特定字符串很简单吧？假设我们要从刚刚的档案当中取得 the 这个特定字符串，最简单的方式就是这样：

[root@test root]# grep -n 'the' regular_express.txt 8:I can't finish the test. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world  is the same with "glad". 18:google is the best tools for search keyword.

那如果想要『反向选择』呢？也就是说，当该行没有 'the' 这个字符串时，才显示在屏幕上，那就直接使用：

[root@test root]# grep -vn 'the' regular_express.txt

您会发现，屏幕上出现的行列为除了 8,12,15,16,18 五行之外的其它行列！接下来，如果您想要取得不论大小写的 the 这个字符串，则：

[root@test root]# grep -in 'the' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good. 12:the symbol '*' is represented as start. 14:The gd software is a library for drafting programs. 15:You are the best is mean you are the no. 1. 16:The world  is the same with "glad". 18:google is the best tools for search keyword.

例题二、利用 [] 来搜寻集合字符
如果我想要搜寻 test 或 taste 这两个单字时，可以发现到，其实她们有共通的 't?st' 存在～这个时候，我可以这样来搜寻：

[root@test root]# grep -n 't[ae]st' regular_express.txt 8:I can't finish the test. 9:Oh! The soup taste good.

了解了吧？其实 [] 里面不论有几个字符，他都谨代表某『一个』字符，所以，上面的例子说明了，我需要的字符串是『tast』或『test』两个字符串而已！而如果想要搜寻到有 oo 的字符时，则使用：

[root@test root]# grep -n 'oo' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes!

但是，如果我不想要 oo 前面有 g 的话呢？此时，可以利用在集合字符的反向选择 [^] 来达成

[root@test root]# grep -n '[^g]oo' regular_express.txt 2:apple is my favorite food. 3:Football game is not use feet only. 18:google is the best tools for search keyword. 19:goooooogle yes!

意思就是说，我需要的是 oo ，但是 oo 前面不能是 g 就是了！仔细比较上面两个表格，妳会发现，第 1,9 行不见了，因为 oo 前面出现了 g 所致！第 2,3 行没有疑问，因为 foo 与 Foo 均可被接受！但是第 18 行明明有 google 的 goo 啊～别忘记了，因为该行后面出现了 tool 的 too 啊！所以该行也被列出来～也就是说， 18 行里面虽然出现了我们所不要的项目 (goo) 但是由于有需要的项目 (too) ，因此，是符合字符串搜寻的喔！

至于第 19 行，同样的，因为 goooooogle 里面的 oo 前面可能是 o ，例如： go(ooo)oogle ，所以，这一行也是符合需求的！

再来，假设我 oo 前面不想要有小写字符，所以，我可以这样写 [^abcd....z]oo ，但是这样似乎不怎么方便，由于小写字符的 ASCII 上编码的顺序是连续的，因此，我们可以将之简化为底下这样：

[root@test root]# grep -n '[^a-z]oo' regular_express.txt 3:Football game is not use feet only.

也就是说，当我们在一组集合字符中，如果该字符组是连续的，例如大写英文/小写英文/数字等等，就可以使用[a-z],[A-Z],[0-9]等方式来书写，那么如果我们的要求字符串是数字与英文呢？呵呵！就将他全部写在一起，变成：[a-zA-Z0-9]

例如，我们要取得有数字的那一行，就这样：

[root@test root]# grep -n '[0-9]' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1.

这样对于 [] 以及 [^] 以及 [] 当中的 - 有了解了吗？！ ^_^y

例题三、行首与行尾字符 ^ $：
我们在例题一当中，可以查询到一行字符串里面有 the 的，那如果我想要让 the 只在行首列出呢？这个时候就得要使用定位字符了！我们可以这样做：

[root@test root]# grep -n '^the' regular_express.txt 12:the symbol '*' is represented as start.

此时，就只剩下第 12 行，因为只有第 12 行的行首是 the 开头啊～此外，如果我想要开头是小写字符的那一行就列出呢？可以这样：

[root@test root]# grep -n '^[a-z]' regular_express.txt 2:apple is my favorite food. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 12:the symbol '*' is represented as start. 18:google is the best tools for search keyword. 19:goooooogle yes!

如果我不想要开头是英文字母，则可以是这样：

[root@test root]# grep -n '^[^a-zA-Z]' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 20:# I am VBird

注意到了吧？那个 ^ 符号，在字符集合符号(括号[])之内与之外是不同的！在 [] 内代表『反向选择』，在 [] 之外则代表定位在行首的意义！要分清楚喔！

那如果我想要找出来，行尾结束为小数点 (.) 的那一行，该如何处理：

[root@test root]# grep -n '\.$' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 4:this dress doesn't fit me. 10:motorcycle is cheap than car. 11:This window is clear. 12:the symbol '*' is represented as start. 15:You are the best is mean you are the no. 1. 16:The world  is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword.

特别注意到，因为小数点具有其它意义(底下会介绍)，所以必须要使用跳脱字符(\)来加以解除其特殊意义！不过，您或许会觉得奇怪，但是第 5~9 行最后面也是 . 啊～怎么无法打印出来？？这里就牵涉到 Windows 平台的软件对于断行字符的判断问题了！我们使用 cat -A 将第五行拿出来看，您会发现：

[root@test root]# cat -A regular_express.txt However, this dress is about $ 3183 dollars.^M$

注意到了没？最后面的断行字符应该是 $ 才对，但是，因为 Windows 的 nodepad 会主动加上 ^M 作为断行的判断，因此，那个 . 自然就不是紧接在 $ 之前喔！这样可以了解 ^ 与 $ 的意义吗？好了，先不要看底下的解答，自己想一想，那么如果我想要找出来，哪一行是『空白行』，也就是说，该行并没有输入任何数据，该如何搜寻？？

[root@test root]# grep -n '^$' regular_express.txt 21:

因为只有行首跟行尾( ^$ )，所以，这样就可以找出空白行啦！再来，假设您已经知道在一个批次脚本 (shell script) 或者是设定档当中，空白行与开头为 # 的那一行是批注，因此如果您要将数据列出给别人参考时，可以将这些数据省略掉，以节省保贵的纸张，那么，您可以怎么作呢？我们以 /etc/syslog.conf 这个档案来作范例，您可以自行参考一下输出的结果：

[root@test root]# cat /etc/syslog.conf [root@test root]# grep -v '^$' /etc/syslog.conf | grep -v '^#'

是否节省很多版面啊？？

例题四、任意一个字符 . 与重复字符 *
在 bash 的章节当中，我们知道万用字符 * 可以用来代表任意(0或多个)字符，但是正则表达式并不是万用字符，两者之间是不相同的！至于正则表达式当中的『 . 』则代表『绝对有一个任意字符』的意思！这样讲不好懂，我们直接做个练习吧！假设我需要找出 g??d 的字符串，亦即共有四个字符，起头是 g 而结束是 d ，我可以这样做：

[root@test root]# grep -n 'g..d' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 9:Oh! The soup taste good. 16:The world  is the same with "glad".

因为强调 g 与 d 之间一定要存在两个字符，因此，第 13 行的 god 与第 14 行的 gd 就不会被列出来啦！再来，如果我想要列出有 oo, ooo, oooo 等等的资料，也就是说，至少要有两个 o 以上，该如何是好？？是 o* 还是 oo* 还是 ooo* 呢？虽然您可以试看看结果，不过结果太占版面了 @_@ ，所以，我这里就直接说明。

因为 * 代表的是『重复 0 个或多个前面的 RE 字符』的意义，因此，『o*』代表的是：『拥有空字符或一个 o 以上的字符』，特别注意，因为允许空字符(就是有没有字符都可以的意思)，因此， grep -n 'o*' regular_express.txt 将会把所有的数据都打印出来屏幕上！

那如果是『oo*』呢？则第一个 o 肯定必须要存在，第二个 o 则是可有可无的多个 o ，所以，凡是含有 o, oo, ooo, oooo 等等，都可以被列出来～

同理，当我们需要『至少两个 o 以上的字符串』时，就需要 ooo* ，亦即是：

[root@test root]# grep -n 'ooo*' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes!

这样理解 * 的意义了吗？！好了，现在出个练习，如果我想要字符串开头与结尾都是 g，但是两个 g 之间仅能存在至少一个 o ，亦即是 gog, goog, gooog.... 等等，那该如何？

[root@test root]# grep -n 'goo*g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes!

如此了解了吗？好，再来一题，如果我想要找出 g 开头与 g 结尾的字符串，当中的字符可有可无，那该如何是好？是『g*g』吗？

[root@test root]# grep -n 'g*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 3:Football game is not use feet only. 9:Oh! The soup taste good. 13:Oh!  My god! 14:The gd software is a library for drafting programs. 16:The world  is the same with "glad". 17:I like dog. 18:google is the best tools for search keyword. 19:goooooogle yes!

但测试的结果竟然出现这么多行？？太诡异了吧？其实一点也不诡异，因为 g*g 里面的 g* 代表『空字符或一个以上的 g』在加上后面的 g ，因此，整个 RE 的内容就是 g, gg, ggg, gggg ，因此，只要该行当中拥有一个以上的 g 就符合所需了！

那该如何得到我们的 g....g 的需求呢？呵呵！就利用任意一个字符『.』啊！亦即是：『g.*g』的作法，因为 * 可以是 0 或多个重复前面的字符，而 . 是任意字符，所以：『.* 就代表零个或多个任意字符』的意思啦！

[root@test root]# grep -n 'g.*g' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 14:The gd software is a library for drafting programs. 18:google is the best tools for search keyword. 19:goooooogle yes!

因为是代表 g 开头与 g 结尾，中间任意字符均可接受，所以，第 1 与第 14 行是可接受的喔！这个 .* 的 RE 表示任意字符是很常见的，希望大家能够理解并且熟悉！

再出一题，如果我想要找出『任意数字』的行列呢？因为仅有数字，所以就成为：

[root@test root]# grep -n '[0-9][0-9]*' regular_express.txt 5:However, this dress is about $ 3183 dollars. 15:You are the best is mean you are the no. 1.

虽然使用 grep -n '[0-9]' regular_express.txt 也可以得到相同的结果，但鸟哥希望大家能够理解上面指令当中 RE 表示法的意义才好！

例题五、限定连续 RE 字符范围 {}
在上个例题当中，我们可以利用 . 与 RE 字符及 * 来设定 0 个到无线多个重复字符，那如果我想要限制一个范围区间内的重复字符数呢？举例来说，我想要找出两个到五个 o 的连续字符串，该如何作？这时候就得要使用到限定范围的字符 {} 了。但因为 { 与 } 的符号在 shell 是有特殊意义的，因此，我们必须要使用跳脱字符 \ 来让他失去特殊意义才行。

至于 {} 的语法是这样的，假设我要找到两个 o 的字符串，可以是：

[root@test root]# grep -n 'o\{2\}' regular_express.txt 1:"Open Source" is a good mechanism to develop programs. 2:apple is my favorite food. 3:Football game is not use feet only. 9:Oh! The soup taste good. 18:google is the best tools for search keyword. 19:goooooogle yes!

这样看似乎与 ooo* 的字符没有什么差异啊？因为第 19 行有多个 o 依旧也出现了！好，那么换个搜寻的字符串，假设我们要找出 g 后面接 2 到 5 个 o ，然后再接一个 g 的字符串，他会是这样：

[root@test root]# grep -n 'go\{2,5\}g' regular_express.txt 18:google is the best tools for search keyword.

嗯！很好！第 19 行终于没有被取用了(因为 19 行有 6 个 o 啊！)。那么，如果我想要的是 2 个 o 以上的 goooo....g 呢？除了可以是 gooo*g ，也可以是：

[root@test root]# grep -n 'go\{2,\}g' regular_express.txt 18:google is the best tools for search keyword. 19:goooooogle yes!

呵呵！就可以找出来啦～

重要特殊字符(characters)

经过了上面的几个简单的范例，我们可以将基础的正则表达式特殊字符汇整如下：

RE 字符	意义与范例
^word	待搜寻的字符串(word)在行首！
	范例：grep -n '^#' regular_express.txt 搜寻行首为 # 开始的那一行！
word$	待搜寻的字符串(word)在行尾！
	范例：grep -n '!$' regular_express.txt 将行尾为 ! 的那一行打印出来！
.	代表『任意一个』字符，一定是一个任意字符！
	范例：grep -n 'e.e' regular_express.txt 搜寻的字符串可以是 (eve) (eae) (eee) (e e)，但不能仅有 (ee) ！亦即 e 与 e 中间『一定』仅有一个字符，而空格符也是字符！
\	跳脱字符，将特殊符号的特殊意义去除！
	范例：grep -n \' regular_express.txt 搜寻含有单引号 ' 的那一行！
*	重复零个或多个的前一个 RE 字符
	范例：*grep -n 'ess' regular_express.txt** 找出含有 (es) (ess) (esss) 等等的字符串，注意，因为 * 可以是 0 个，所以 es 也是符合带搜寻字符串。另外，因为 * 为重复『前一个 RE 字符』的符号，因此，在 * 之前必须要紧接着一个 RE 字符喔！例如任意字符则为『.*』！
\{n,m\}	连续 n 到 m 个的『前一个 RE 字符』若为 \{n\} 则是连续 n 个的前一个 RE 字符，若是 \{n,\} 则是连续 n 个以上的前一个 RE 字符！
	范例：grep -n 'go\{2,3\}g' regular_express.txt 在 g 与 g 之间有 2 个到 3 个的 o 存在的字符串，亦即 (goog)(gooog)
[]	字符集合的 RE 特殊字符的符号
	[list] 范例：grep -n 'g[ld]' regular_express.txt 搜寻含有 (gl) 或 (gd) 的那一行～需要特别留意的是，在 [] 当中『谨代表一个待搜寻的字符』，例如： a[afl]y 代表搜寻的字符串可以是 aay, afy, aly 亦即 [afl] 代表 a 或 f 或 l 的意思！ [ch1-ch2] 范例：grep -n '[0-9]' regular_express.txt 搜寻含有任意数字的那一行！需特别留意，在字符集合 [] 中的减号 - 是有特殊意义的，他代表两个字符之间的所有连续字符！但这个连续与否与 ASCII 编码有关，因此，您的编码需要设定正确(在 bash 当中，需要确定 LANG 与 LANGUAGE 的变量是否正确！) 例如所有大写字符则为 [A-Z] [^] 范例：grep -n 'oo[^t]' regular_express.txt 搜寻的字符串可以是 (oog) (ood) 但不能是 (oot) ，那个 ^ 在 [] 内时，代表的意义是『反向选择』的意思～例如，我不要大写字符，则为 [^A-Z] ～但是，需要特别注意的是，如果以 grep -n [^A-Z] regular_express.txt 来搜寻，却发现该档案内的所有行都被列出，为什么？因为这个 [^A-Z] 是『非大写字符』的意思，因为每一行均有非大写字符，例如第一行的 "Open Source" 就有 p,e,n,o.... 等等的小写字符，以及双引号 (") 等字符，所以当然符合 [^A-Z] 的搜寻！

请特别留意的是，『正则表达式的特殊字符』与一般在指令列输入指令的『万用字符』并不相同，例如，在万用字符当中，* 代表的是 0 ~ 无限多个字符的意思，但是在正则表达式当中， * 则是重复 0 到多个的前一个 RE 字符的意思～使用的意义并不相同，不要搞混了！ (鸟哥我一开始摸正则表达式时就很容易搞混！因为这里是新手最容易搞错的地方，特别小心啊！)

举例来说，不支持正则表达式的 ls 这个工具中，若我们使用『ls -l * 』代表的是任意档名的档案，而『ls -l a* 』代表的是以 a 为开头的任何档名的档案，但在正则表达式中，我们要找到含有以 a 为开头的档案，则必须要这样：(需搭配支持正则表达式的工具) ls | grep -n '^a.*' 另外，例如万用字符的反向选择，为 [!range] ，至于正则表达式则是 [^range] 。这样是否了解正则表达式与万用字符的差异啦？？

延伸正则表达式

事实上，一般读者只要了解基础型的正则表达式大概就已经相当足够了，不过，某些时刻，为了要简化整个指令操作，了解一下使用范围更广的延伸型正则表达式的表示式，会更方便呢！举个简单的例子好了，在上节的例题三的最后一个例子中，我们要去除空白行与行首为 # 的行列，使用的是

grep -v '^$' regular_express.txt | grep -v '^#'

需要使用到管线命令来搜寻两次！那么如果使用延伸型的正则表达式，我们可以简化为：

egrep -v '^$|^#' regular_express.txt

利用支持延伸型正则表达式的 egrep 与特殊字符 | 来区隔两组字符串，如此一来，是否方便很多呢？

这里必须要特别强调， grep 支持的是基础型的正则表达式，而 egrep 支持延伸正则表达式。事实上， egrep 是 grep -E 的命令别名，为了方便使用，我们还是以 egrep 来跟 grep 区分吧！

熟悉了正则表达式之后，到这个延伸型的正则表达式，您应该也会想到，不就是多几个重要的特殊符号吗？ ^_^y 是的～所以，我们就直接来说明一下，延伸型正则表达式有哪几个特殊符号？

RE 字符	意义与范例
+	重复『一个或一个以上』的前一个 RE 字符
+	范例：egrep -n 'go+d' regular_express.txt 搜寻 (god) (good) (goood)... 等等的字符串。那个 o+ 代表『一个以上的 o 』所以，上面的执行成果会将第 1, 9, 13 行列出来。
?	『零个或一个』的前一个 RE 字符
?	范例：egrep -n 'go?d' regular_express.txt 搜寻 (gd) (god) 这两个字符串。那个 o? 代表『空的或 1 个 o 』所以，上面的执行成果会将第 13, 14 行列出来。有没有发现到，这两个案例( 'go+d' 与 'go?d' )的结果集合与 'go*d' 相同？想想看，这是为什么喔！ ^_^
\|	用或( or )的方式找出数个字符串
\|	范例：egrep -n 'gd\|good' regular_express.txt 搜寻 gd 或 good 这两个字符串，注意，是『或』！所以，第 1,9,14 这三行都可以被打印出来喔！那如果还想要找出 dog 呢？就这样啊： egrep -n 'gd\|good\|dog' regular_express.txt
( )	找出『群组』字符串
( )	范例：egrep -n 'g(la\|oo)d' regular_express.txt 搜寻 (glad) 或 (good) 这两个字符串，因为 g 与 d 是重复的，所以，我就可以将 la 与 oo 列于 ( ) 当中，并以 \| 来分隔开来，就可以啦！此外，这个功能还可以用来作为『多个重复群组』的判别喔！举例来说： echo 'AxyzxyzxyzxyzC' \| egrep 'A(xyz)+C' 上面的例子当中，意思是说，我要找开头是 A 结尾是 C ，中间有一个以上的 "xyz" 字符串的意思～

以上这些就是延伸型的正则表达式的特殊字符。另外，要特别强调的是，那个 ! 在正则表达式当中并不是特殊字符，所以，如果您想要查出来档案中含有 ! 与 > 的字行时，可以这样： grep -n '[!>]' regular_express.txt 这样可以了解了吗？！常常看到有陷阱的题目写：『反向选择这样对否？ '[!a-z]'？』，呵呵！是错的呦～要 '[^a-z] 才是对的！

转载于:https://blog.51cto.com/singlegod/586340

weixin_34167819

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式的学习

转自鸟哥的linux私房菜前言约略了解了 Linux 的基本指令 (Shell) 并且熟悉了vi之后，相信您对于敲击键盘与指令比较不陌生了吧？？接下来，底下要开始介绍一个很重要的观念，那就是所谓的『正则表达式』啰！什么是正则表达式任何一个有经验的系统管理员，都会告诉您：『正则表达式真是挺重要的！』为什么很重要呢？因为日常生活就使用的到...
复制链接

扫一扫