Linux grep正则表达式学习笔记

最新推荐文章于 2023-10-24 12:14:04 发布

沉迷单车的追风少年

最新推荐文章于 2023-10-24 12:14:04 发布

阅读量396

点赞数 4

分类专栏：服务端编程编程基础 Linux 文章标签：正则表达式 grep

本文链接：https://blog.csdn.net/qq_41895747/article/details/115728030

版权

服务端编程同时被 3 个专栏收录

40 篇文章

订阅专栏

编程基础

24 篇文章

订阅专栏

Linux

11 篇文章

订阅专栏

本文详细介绍了正则表达式的基础参数、字符类匹配、限定符、序列检测符、或逻辑与和逻辑、特殊字符、非打印字符及零宽断言等概念，并结合grep命令演示了在文本匹配中的应用。通过实例解析了grep的-a、-c、-i、-n、-o、-A、-B、-E、-v和--color等选项，以及正则表达式的各种组合使用。此外，还涵盖了正则表达式在不同模式（BREs、EREs、PREs）下的差异和特殊字符的含义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基础参数

-a：将二进制文档以文本方式处理
-c：显示匹配次数
-i：忽略大小写差异
-n：在行首显示行号
-o：只显示匹配字符，不显示匹配行
-A：After的意思，显示匹配字符串后n行的数据
-B：before的意思，显示匹配字符串前n行的数据
-E：延伸的正则表达式使用，等价于egrep
-v：显示没有匹配行
--color：以特定颜色高亮显示匹配关键字
^：匹配输入行的开始
$：匹配输入行的结尾

字符类匹配

标准的字符类名称如下：

[:alnum:] - 字母数字字符
[:alpha:] - 字母字符
[:blank:] - 空字符: 空格键符和制表符
[:digit:] - 数字: '0 1 2 3 4 5 6 7 8 9'
[:lower:] - 小写字母: 'a b c d e f g h i j k l m n o p q r s t u v w x y z'
[:space:] - 空格字符: 制表符、换行符、垂直制表符、换页符、回车符和空格键符
[:upper:] - 大写字母: 'A B C D E F G H I J K L M N O P Q R S T U V W X Y Z'

匹配 Vivek 或 vivek：

grep '[vV]ivek' 文件名

也可以匹配数字 (即匹配 vivek1 或 Vivek2 等等):

grep -w '[vV]ivek[0-9]' 文件名

可以匹配两个数字字符(即 foo11、foo12 等):

grep 'foo[0-9][0-9]' 文件名

不仅仅局限于数字，也能匹配至少一个字母的:

grep '[A-Za-z]' 文件名

显示含有 "w" 或 "n" 字符的所有行：

grep [wn] 文件名

正则表达式限定符

限定符	描述
`.`	匹配任意的一个字符。
`?`	匹配前面的子表达式，最多一次。
`*`	匹配前面的子表达式零次或多次。
`+`	匹配前面的子表达式一次或多次。
`{N}`	匹配前面的子表达式 N 次。
`{N,}`	匹配前面的子表达式 N 次到多次。
`{N,M}`	匹配前面的子表达式 N 到 M 次，至少 N 次至多 M 次。
`-`	只要不是在序列开始、结尾或者序列的结束点上，表示序列范围。
`^`	匹配一行开始的空字符串；也表示字符不在要匹配的列表中。
`$`	匹配一行末尾的空字符串。
`\b`	匹配一个单词前后的空字符串。
`\B`	匹配一个单词中间的空字符串。
`\<`	匹配单词前面的空字符串。
`\>`	匹配单词后面的空字符串。

正则序列检测符

`{N}`	匹配前面的子表达式 N 次。
`{N,}`	匹配前面的子表达式 N 次到多次。
`{N,M}`	匹配前面的子表达式 N 到 M 次，至少 N 次至多 M 次。

下面是举例：

要匹配字符 “v" 出现两次：

egrep "v{2}" 文件名

下面的命令能匹配到 "col" 和 "cool" ：

egrep 'co{1,2}l' 文件名

下面的命令将会匹配出至少有三个 'c' 字符的所有行：

egrep 'c{3,}' 文件名

下面的例子会匹配 91-1234567890（即二个数字-十个数字）这种格式的手机号：

grep "[[:digit:]]\{2\}[ -]\?[[:digit:]]\{10\}" 文件名

或逻辑&&和逻辑

或逻辑：

grep -E 'word1|word2' 文件名

grep 'word1\|word2' 文件名

和逻辑：

使用下面的语法来显示既包含 'word1' 又包含 'word2' 的所有行

grep 'word1' 文件名 | grep 'word2'

正则特殊字符

$	匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身，请使用 \$。
( )	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 $ 和 $。
*	匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*。
+	匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 \+。
.	匹配除换行符 \n 之外的任何单字符。要匹配 . ，请使用 \. 。
[	标记一个中括号表达式的开始。要匹配 [，请使用 \[。
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 \?。
\	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\"，而 '\(' 则匹配 "("。
^	匹配输入字符串的开始位置，除非在方括号表达式中使用，当该符号在方括号表达式中使用时，表示不接受该方括号表达式中的字符集合。要匹配 ^ 字符本身，请使用 \^。
{	标记限定符表达式的开始。要匹配 {，请使用 \{。
\|	指明两项之间的一个选择。要匹配 \|，请使用 \\|。

正则非打印字符

\cx	匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\n	匹配一个换行符。等价于 \x0a 和 \cJ。
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于 \x09 和 \cI。
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。

零宽断言

零宽断言顾名思义是一种零宽度的匹配，它匹配到的内容不会保存到匹配结果中去，最终匹配结果只是一个位置而已。
作用是给指定位置添加一个限定条件，用来规定此位置之前或者之后的字符必须满足限定条件才能使正则中的字表达式匹配成功。

\w+(?=ing) 匹配以ing结尾的多个字符（不包括ing）
\w+(?!ing) 匹配不是以ing结尾的多个字符

(?<=re)\w+ 匹配以re开头的多个字符（不包括re）
(?<!re)\w+ 匹配不是以re开头的多个字符

(?<=\s)\d+(?=\s) 匹配两边是空白符的数字，不包括空白符

常用分组

分类	代码/语法	说明
捕获	(exp)	匹配exp,并捕获文本到自动命名的组里
	(?<name>exp)	匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
	(?:exp)	匹配exp,不捕获匹配的文本，也不给此分组分配组号
零宽断言	(?=exp)	匹配exp前面的位置(匹配后面是exp的数据)
	(?<=exp)	匹配exp后面的位置(匹配前面是exp的数据)
	(?!exp)	匹配后面跟的不是exp的位置
	(?<!exp)	匹配前面不是exp的位置
注释	(?#comment)	这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读

正则表达式模式说明

基本的正则表达式（Basic Regular Expression 又叫 Basic RegEx 简称 BREs）
扩展的正则表达式（Extended Regular Expression 又叫 Extended RegEx 简称 EREs）
Perl 的正则表达式（Perl Regular Expression 又叫 Perl RegEx 简称 PREs）

grep 支持：BREs、EREs、PREs 正则表达式

grep 指令后不跟任何参数，则表示要使用 ”BREs“
grep 指令后跟 ”-E" 参数，则表示要使用 “EREs“
grep 指令后跟 “-P" 参数，则表示要使用 “PREs"

字符	说明	Basic RegEx	Extended RegEx	python RegEx	Perl regEx
转义		\	\	\	\
^	匹配行首，例如'^dog'匹配以字符串dog开头的行（注意：awk 指令中，'^'则是匹配字符串的开始）	^	^	^	^
$	匹配行尾，例如：'^、dog$'匹配以字符串 dog 为结尾的行（注意：awk 指令中，'$'则是匹配字符串的结尾）	$	$	$	$
^$	匹配空行	^$	^$	^$	^$
^string$	匹配行，例如：'^dog$'匹配只含一个字符串 dog 的行	^string$	^string$	^string$	^string$
\<	匹配单词，例如：'\<frog' （等价于'\bfrog'），匹配以 frog 开头的单词	\<	\<	不支持	不支持（但可以使用\b来匹配单词，例如：'\bfrog'）
\>	匹配单词，例如：'frog\>'（等价于'frog\b '），匹配以 frog 结尾的单词	\>	\>	不支持	不支持（但可以使用\b来匹配单词，例如：'frog\b'）
\<x\>	匹配一个单词或者一个特定字符，例如：'\<frog\>'（等价于'\bfrog\b'）、'\<G\>'	\<x\>	\<x\>	不支持	不支持（但可以使用\b来匹配单词，例如：'\bfrog\b'
()	匹配表达式，例如：不支持'（frog）'	不支持（但可以使用，如：dog	()	()	()
	匹配表达式，例如：不支持'（frog）'		不支持（同())	不支持（同())	不支持（同())
？	匹配前面的子表达式 0 次或 1 次（等价于{0,1}），例如：where(is)?能匹配"where" 以及"whereis"	不支持（同\?)	？	？	？
\?	匹配前面的子表达式 0 次或 1 次（等价于'\{0,1\}'），例如：'whereis\? '能匹配 "where"以及"whereis"	\?	不支持（同?)	不支持（同?)	不支持（同?)
?	当该字符紧跟在任何一个其他限制符（*, +, ?, {n},{n,}, {n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，'o+?' 将匹配单个"o"，而 'o+' 将匹配所有 'o'	不支持	不支持	不支持	不支持
.	匹配除换行符（'\n'）之外的任意单个字符（注意：awk 指令中的句点能匹配换行符）	.	.（如果要匹配包括“\n”在内的任何一个字符，请使用：'(^$)\|（.）	.	.（如果要匹配包括“\n”在内的任何一个字符，请使用：' [.\n] '
*	匹配前面的子表达式 0 次或多次（等价于{0, }），例如：zo* 能匹配 "z"以及 "zoo"	*	*	*	*
\+	匹配前面的子表达式 1 次或多次（等价于'\{1, \}'），例如：'whereis\+ '能匹配 "whereis"以及"whereisis"	\+	不支持（同+)	不支持（同+)	不支持（同+)
+	匹配前面的子表达式 1 次或多次（等价于{1, }），例如：zo+能匹配 "zo"以及 "zoo"，但不能匹配 "z"	不支持（同\+)	+	+	+
{n}	n 必须是一个 0 或者正整数，匹配子表达式 n 次，例如：zo{2}能匹配	不支持（同\{n\})	{n}	{n}	{n}
{n,}	"zooz"，但不能匹配 "Bob"n 必须是一个 0 或者正整数，匹配子表达式大于等于 n次，例如：go{2,}	不支持（同\{n,\})	{n,}	{n,}	{n,}
{n,m}	能匹配 "good"，但不能匹配 godm 和 n 均为非负整数，其中 n <= m，最少匹配 n 次且最多匹配 m 次，例如：o{1,3}将配"fooooood" 中的前三个 o（请注意在逗号和两个数之间不能有空格）	不支持（同\{n,m\})	{n,m}	{n,m}	{n,m}
x\|y	匹配 x 或 y，例如：不支持'z\|（food）' 能匹配 "z" 或"food"；'（z\|f）ood' 则匹配"zood" 或 "food"	不支持（同x\\|y)	x\|y	x\|y	x\|y
[0-9]	匹配从 0 到 9 中的任意一个数字字符（注意：要写成递增）	[0-9]	[0-9]	[0-9]	[0-9]
[xyz]	字符集合，匹配所包含的任意一个字符，例如：'[abc]'可以匹配"lay" 中的 'a'（注意：如果元字符，例如：. *等，它们被放在[ ]中，那么它们将变成一个普通字符）	[xyz]	[xyz]	[xyz]	[xyz]
[^xyz]	负值字符集合，匹配未包含的任意一个字符（注意：不包括换行符），例如：'[^abc]' 可以匹配 "Lay" 中的'L'（注意：[^xyz]在awk 指令中则是匹配未包含的任意一个字符+换行符）	[^xyz]	[^xyz]	[^xyz]	[^xyz]
[A-Za-z]	匹配大写字母或者小写字母中的任意一个字符（注意：要写成递增）	[A-Za-z]	[A-Za-z]	[A-Za-z]	[A-Za-z]
[^A-Za-z]	匹配除了大写与小写字母之外的任意一个字符（注意：写成递增）	[^A-Za-z]	[^A-Za-z]	[^A-Za-z]	[^A-Za-z]
\d	匹配从 0 到 9 中的任意一个数字字符（等价于 [0-9]）	不支持	不支持	\d	\d
\D	匹配非数字字符（等价于 [^0-9]）	不支持	不支持	\D	\D
\S	匹配任何非空白字符（等价于[^\f\n\r\t\v]）	不支持	不支持	\S	\S
\s	匹配任何空白字符，包括空格、制表符、换页符等等（等价于[ \f\n\r\t\v]）	不支持	不支持	\s	\s
\W	匹配任何非单词字符 (等价于[^A-Za-z0-9_])	\W	\W	\W	\W
\w	匹配包括下划线的任何单词字符（等价于[A-Za-z0-9_]）	\w	\w	\w	\w
\B	匹配非单词边界，例如：'er\B' 能匹配 "verb" 中的'er'，但不能匹配"never" 中的'er'	\B	\B	\B	\B
\b	匹配一个单词边界，也就是指单词和空格间的位置，例如： 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的'er'	\b	\b	\b	\b
\t	匹配一个横向制表符（等价于 \x09和 \cI）	不支持	不支持	\t	\t
\v	匹配一个垂直制表符（等价于 \x0b和 \cK）	不支持	不支持	\v	\v
\n	匹配一个换行符（等价于 \x0a 和\cJ）	不支持	不支持	\n	\n
\f	匹配一个换页符（等价于\x0c 和\cL）	不支持	不支持	\f	\f
\r	匹配一个回车符（等价于 \x0d 和\cM）	不支持	不支持	\r	\r
\\	匹配转义字符本身"\"	\\	\\	\\	\\
\cx	匹配由 x 指明的控制字符，例如：\cM匹配一个Control-M 或回车符，x 的值必须为A-Z 或 a-z 之一，否则，将 c 视为一个原义的 'c' 字符	不支持	不支持		\cx
\xn	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长，例如：'\x41' 匹配 "A"。'\x041' 则等价于'\x04' & "1"。正则表达式中可以使用 ASCII 编码	不支持	不支持		\xn
\num	匹配 num，其中 num是一个正整数。表示对所获取的匹配的引用	不支持	\num	\num
[:alnum:]	匹配任何一个字母或数字（[A-Za-z0-9]），例如：'[[:alnum:]] '	[:alnum:]	[:alnum:]	[:alnum:]	[:alnum:]
[:alpha:]	匹配任何一个字母（[A－Za－z]），例如：' [[:alpha:]] '	[:alpha:]	[:alpha:]	[:alpha:]	[:alpha:]
[:digit:]	匹配任何一个数字（[0-9]），例如：'[[:digit:]] '	[:digit:]	[:digit:]	[:digit:]	[:digit:]
[:lower:]	匹配任何一个小写字母（[a-z]），例如：' [[:lower:]] '	[:lower:]	[:lower:]	[:lower:]	[:lower:]
[:upper:]	匹配任何一个大写字母（[A-Z]）	[:upper:]	[:upper:]	[:upper:]	[:upper:]
[:space:]	任何一个空白字符：支持制表符、空格，例如：' [[:space:]] '	[:space:]	[:space:]	[:space:]	[:space:]
[:blank:]	空格和制表符（横向和纵向），例如：'[[:blank:]]'ó'[\s\t\v]'	[:blank:]	[:blank:]	[:blank:]	[:blank:]
[:graph:]	任何一个可以看得见的且可以打印的字符（注意：不包括空格和换行符等），例如：'[[:graph:]] '	[:graph:]	[:graph:]	[:graph:]	[:graph:]
[:print:]	任何一个可以打印的字符（注意：不包括：[:cntrl:]、字符串结束符'\0'、EOF 文件结束符（-1），但包括空格符号），例如：'[[:print:]] '	[:print:]	[:print:]	[:print:]	[:print:]
[:cntrl:]	任何一个控制字符（ASCII 字符集中的前 32 个字符，即：用十进制表示为从 0 到31，例如：换行符、制表符等等），例如：' [[:cntrl:]]'	[:cntrl:]	[:cntrl:]	[:cntrl:]	[:cntrl:]
[:punct:]	任何一个标点符号（不包括：[:alnum:]、[:cntrl:]、[:space:]这些字符集）	[:punct:]	[:punct:]	[:punct:]	[:punct:]
[:xdigit:]	任何一个十六进制数（即：0-9，a-f，A-F）	[:xdigit:]	[:xdigit:]	[:xdigit:]	[:xdigit:]

参考

https://blog.csdn.net/xy010902100449/article/details/51426354
https://linux.cn/article-6941-1.html
https://www.runoob.com/linux/linux-comm-grep.html
https://blog.csdn.net/yufenghyc/article/details/51078107
https://www.kancloud.cn/thinkphp/regex-guide/43534
https://www.jb51.net/tools/zhengze.html