正则表达式

我爱云计算

于 2024-08-02 10:35:44 发布

阅读量249

点赞数 9

文章标签：正则表达式 linux 服务器

本文链接：https://blog.csdn.net/2301_78183285/article/details/140841820

版权

1. 基本概念

        正则表达式（Regular Expression，简称 regex 或 regexp）是一种强大的文本模式匹配工具，用于在字符串中搜索、匹配、替换特定的文本模式。本文将介绍正则表达式的基本概念和常用模式，并通过一个日常使用的例子来展示正则表达式的实际应用。



        正则表达式由普通字符（如字母、数字）和特殊元字符（如 \, ^, $, .）组成，通过这些元字符的组合可以描述字符串的复杂模式，从而实现对字符串的高效处理。正则表达式又分为基本正则表达式和扩展正则表达式：

基本正则和扩展正则：

以下是基本正则和扩展正则的一些常用元字符和它们的简单说明，以表格形式展示：

元字符	基本正则（BRE）	扩展正则（ERE）	说明
`.`	`.`	`.`	匹配任意单个字符（除换行符外）
`*`	`*`	`*`	匹配前面的子表达式零次或多次
`^`	`^`	`^`	匹配行首
`$`	`$`	`$`	匹配行尾
`[]`	`[]`	`[]`	匹配一个指定范围内的字符（如[a-z]表示任意小写字母）
`\`	`\`	`\`（部分情况无需）	转义字符，用于匹配特殊字符或表示特殊序列（在ERE中，部分特殊字符无需转义）
`\{n,m\}`	`\{n,m\}`	`{n,m}`	匹配前面的子表达式至少n次，但不超过m次（ERE中去掉反斜杠）
`\{n\}`	`\{n\}`	`{n}`	匹配前面的子表达式恰好n次（ERE中去掉反斜杠）
`\{n,\}`	`\{n,\}`	`{n,}`	匹配前面的子表达式至少n次（ERE中去掉反斜杠）
\（\）	\（\）	（）	组合为整体保留
`?`	不支持	`?`	匹配前面的子表达式零次或一次（ERE特有）
`+`	不支持	`+`	匹配前面的子表达式一次或多次（ERE特有）
`\|`	不支持	`\|`	逻辑“或”操作，匹配左侧的表达式或右侧的表达式（ERE特有）
`\b`	`\b`	`\b`	匹配单词边界（在ERE中同样使用）

请注意，这个表格是基于常见用法和一般规则整理的，不同的正则表达式引擎（如grep、sed、awk等）可能会有细微的差别。此外，一些特殊用法（如POSIX字符类）可能没有在表格中列出，但它们也是正则表达式的重要部分。

2. 例

2.1 测试 ^ $ [] [^]

grep ^root user                #找以root开头的行
grep bash$ user                #找以bash结尾的行
grep ^$ user                   #找空行
grep -v ^$ user                #显示除了空行的内容
grep "[root]" user             #找r、o、t任意一个字符 
grep "[rot]" user              #效果同上
grep "[^rot]" user             #显示r或o或t以外的内容
grep "[0123456789]" user       #找所有数字
grep "[0-9]" user              #效果同上
grep "[^0-9]" user             #显示数字以外内容
grep "[a-z]" user              #找所有小写字母
grep "[A-Z]" user              #找所有大写字母
grep "[a-Z]" user              #找所有字母
grep "[^0-9a-Z]" user          #找所有符号

2.2 测试 . *

grep "." user                 #找任意单个字符，文档中每个字符都可以理解为任意字符
grep "r..t" user              #找rt之间有2个任意字符的行
grep "r.t" user               #找rt之间有1个任意字符的行，没有匹配内容，就无输出
grep "*" user                 #错误用法，*号是匹配前一个字符任意次，不能单独使用
grep "ro*t" user              #找rt，中间的o有没有都行，有几次都行
grep ".*" user                #找任意，包括空行 .与*的组合在正则中相当于通配符的效果

2.3 测试 \{n\} \{n,\} \{n,m\} 

grep "ro\{1,2\}t" user        #找rt，中间的o可以有1~2个
grep "ro\{2,6\}t" user        #找rt，中间的o可以有2~6个
grep "ro\{1,\}t" user         #找rt，中间的o可以有1个以及1个以上
grep "ro\{3\}t" user          #找rt，中间的o必须只有有3个
grep "\(0:\)\{2\}" user       #找连续的2个0:  小括号的作用是将字符组合为一个整体

2.4 扩展正则表达式

以上命令均可以加-E选项并且去掉所有\，改成扩展正则的用法
比如grep "ro\{1,\}t" user可以改成 grep -E "ro{1,}t" user
或者egrep "ro{1,}t" use

grep "ro\{1,\}t" user            #使用基本正则找o出现1次以及1次以上
egrep "ro{1,}t" user             #使用扩展正则，效果同上，比较精简
egrep "ro+t" user                #使用扩展正则，效果同上，最精简
grep "roo\{0,1\}t" user          #使用基本正则找第二个o出现0~1次
egrep "roo{0,1}t" user           #使用扩展正则，效果同上，比较精简
egrep "roo?t" user               #使用扩展正则，效果同上，最精简
egrep "(0:){2}" user             #找连续的2个0:  小括号的作用是将字符组合为一个整体
egrep "root|bin" user            #找有root或者bin的行
egrep  "the\b" abc.txt           #找单词the，右边不允许出现数字、字母、下划线
egrep  "\bthe\b" abc.txt         #the两边都不允许出现数字、字母、下划线
egrep  "\<the\>" abc.txt         #效果同上

我爱云计算

关注

9
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
正则表达式

正则表达式（Regular Expression，简称 regex 或 regexp）是一种强大的文本模式匹配工具，用于在字符串中搜索、匹配、替换特定的文本模式。正则表达式由普通字符（如字母、数字）和特殊元字符（如 \, ^, $, .）组成，通过这些元字符的组合可以描述字符串的复杂模式，从而实现对字符串的高效处理。，这个表格是基于常见用法和一般规则整理的，不同的正则表达式引擎（如grep、sed、awk等）可能会有细微的差别。
复制链接

扫一扫