10.1正则表达式

最新推荐文章于 2022-06-23 18:27:10 发布

weixin_34362991

最新推荐文章于 2022-06-23 18:27:10 发布

阅读量248

点赞数

文章标签：操作系统 awk 开发工具

原文链接：http://blog.51cto.com/itit0/1334741

版权

正则表达式

一正则表达式的概念

正则表达式（或称Regular Expression，简称RE）就是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符）组成的文字模式；该模式描述在查找文字主体时待匹配的一个或多个字符串

正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。简单的说，正则表示式就是处理字符串的方法，它是以行为单位来进行字符串的处理行为，正则表示式通过一些特殊符号的辅助，可以让使用者轻易的达到搜寻/删除/取代某特定字符串的处理程序。vim、grep、find、awk、sed等命令都支持正则表达式

二常用正则表达式

·表达式

1、.代表任意单个字符, 如：/l..e/与包含一个l，后跟两个字符，然后跟一个e的行相匹配

2、^代表行的开始。 ^love 如：与所有love开头的行匹配

3、$代表行的结束。love$ 如：与所有love结尾的行匹配

4、^$表示空行

5、[…]匹配括号中的字符之一

[abc] 匹配单个字符a或b或c

[123] 匹配单个字符1或2或3

[a-z] 匹配小写字母a-z之一

[a-zA-Z] 匹配任意英文字母之一

[0-9a-zA-Z] 匹配任意英文字母或数字之一

注意：上面标红色的单个和之一，不管[]里面多复杂，它的结果都是一个字符！

6、[^…] 表示除[]内的字符之外的字符；比如搜索oo前没有g的字符串的行. 应用 '[^g]oo' 作搜索字符串，^符号如果出现在[]的起始位置表示否定，但是在[]的其他位置是普通字符。[^ab^c] 匹配b或^或c或不是a的任意单个字符

7、* 用于修饰前导字符，表示前导字符出现0次或任意多次

如：'a*grep'匹配所有0个或多个a后紧跟grep的行。".*"表示任意字符串

8、\? 用于修饰前导字符，表示前导字符出现0或1次

a\? 匹配0或1个a

9、\+ 用于修饰前导字符，表示前导字符出现1或多次

a\+ 匹配1或多个a

10、\{n,m\} 用于修饰前导字符，表示前导字符出现n至m次（n和m都是整数，且n<m）

a\{3,5\} 匹配3至5个连续的a;；\{n\} 连续的n个前导字符；\{n,\} 连续的至少n个前导字符

11、\ 用于转义紧跟其后的单个特殊字符，使该特殊字符成为普通字符

如：^\.[0-9][0-9] 对以一个句点和两个数字开始

12、｜表示或如： a|b|c 匹配a或b或c。如：grep|sed匹配grep或sed

13、（），将部分内容合成一个单位组，比如要搜索 glad 或 good 可以如下 'g(la|oo)d'

·应用举例

例1：一篇文本包含以下内容

1 Christian Scott lives here and will put on a Christmas party.

2 There are around 30 to 35 people invited.

3 They are:

4 Tom

5 Dan

6 Rhonda Savage

7 Nicky and Kimerly.

8 Steve, Suzanne, Ginger and Larry.

^[A-Z]..$

搜索行以A至Z的一个字母开头，然后跟两个任意字母，然后跟一个换行符的行。将找到第5行。

^[A-Z][a-z]*3[0-5]

搜索以一个大写字母开头，后跟0个或多个小写字母，再跟数字3，再跟0—5之间的一个数字。无法找到匹配行(改成^[A-Z][a-z]*.*3[0-5]可找到第2行)

^ *[A-Z][a-z][a-z]$

搜索以0个或多个空格开头，跟一个大写字母，两个小写字母和一个换车符。将找到第4行的TOM（整行匹配）和第5行。注意，*前面有一个空格。

^[A-Za-z]*[^,][A-Za-z]*$

将查找以0个或多个大写或小写字母开头，不跟逗号，然后跟0个或多个大写或小写字母，然后跟一个换车符。将找到第4和5行。

例2：

# ls -l /bin | grep '^...s'

上面的命令是用来查找suid文件的；

# ls -lR /usr | grep '^...s..s'

上面的命令是用来查找suid和guid的

三 grep命令的用法

·介绍

grep （global search regular expression_r(RE) and print out the line,全面搜索正则表达式并把行打印出来）是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来

·参数

1、 -A NUM，--after-context=NUM 除了列出符合行之外，并且列出后NUM行。

如: $ grep –A 1 panda file (从file中搜寻有panda样式的行，并显示该行的后1行)

2.、-B NUM，--before-context=NUM 与 -A NUM 相对，但这此参数是显示除符合行之外

显示在它之前的NUM行。如: (从file中搜寻有panda样式的行，并显示该行的前1行)

$ grep -B 1 panda file

3、-C [NUM], -NUM, --context[=NUM] 列出符合行并列出上下各NUM行，默认值是2。

如: (列出file中除包含panda样式的行外并列出其上下2行)(若要改变默认值，直接改变NUM即可)：$ grep -C[NUM] panda file

4、 -c, --count 不显示符合样式行，只显示符合的总行数。若再加上-v,--invert-match，参数显示不符合的总行数

5、-i，--ignore-case 忽略大小写差别

6、-n，--line-number 在匹配的行前面打印行号

7、-v，--revert-match 反检索，只显示不匹配的行

8、精确匹配：

例如在抽取字符串" 48"，返回结果包含诸如484和483等包含"48"的其他字符串，实际上应精确抽取只包含48的各行。

使用grep抽取精确匹配的一种有效方式是在抽取字符串后加\>。假定现在精确抽取48，

方法如下：

#grep '48\>' filename

9、-s 不显示不存在或无匹配文本的错误信息

如：执行命令grep "root" /etc/password，因为password文件不存在，所以在屏幕上输出错误信息，若使用grep命令-s开关，可屏蔽错误信息

·应用举例

$ ls -l | grep '^d'

通过管道过滤ls -l输出的内容，只显示以d开头的行。

$ grep 'test' d*

显示所有以d开头的文件中包含test的行。

$ grep 'test' aa bb cc

显示在aa，bb，cc文件中匹配test的行。

$ grep '[a-z]\{5,\}' aa

显示所有包含每个字符串至少有5个连续小写字符的字符串的行。

$grep 't[a|e]st' filename

显示包含test或tast的所有行。

$grep '\.$' filename

显示以.为结尾的所有行

三 sed命令的用法

·介绍

sed是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为"模式空间"（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出

·应用用举例

1．替换: s命令
1.1 基本用法

如： sed 's/day/night/' <old >new
该例子将文件 old 中的每一行第一次出现的 day 替换成 night, 将结果输出到文件 new

s            " 替换 " 命令
/../../     分割符 (Delimiter)
day         搜索字符串
night       替换字符串
其实 , 分割符 "/" 可以用别的符号代替 , 比如 ",", "|" 等 .
如：sed 's/\/usr\/local\/bin/\/common\/bin/'<old >new
等价于 sed 's_/usr/local/bin_/common/bin_' <old >new
显然 , 此时用 "_" 作分割符比 "/" 好得多