正则表达式

@阿飞

于 2024-02-04 09:46:32 发布

阅读量843

点赞数 17

分类专栏：其它文章标签：正则表达式

本文链接：https://blog.csdn.net/qq_42077965/article/details/136020496

版权

1 篇文章 0 订阅

订阅专栏

基础正则

正则表达式的分类：

BRE和ERE语法基本一致，只有部分元字符（预定义好的带有特殊含义的一些符号）需要区别对待。

扩展正则中这些元字符可直接使用：? + { } | ( )
基础正则中这些元字符前需要加反斜线转义 \? \+ \{ \} \| 
- grep/sed 默认使用基础正则表达式
- grep -E、sed -r、egrep、 awk扩展正则表达式

echo "hello world" | grep 'world'

单词：在正则表达式中的含义：[a-zA-Z0-9] 组成的字符或字符串都是单词，例如nihao,hello world_,第一个单词是nihao，第二个单词是hello，第三个单词是world_。

普通中括号包围的字符组：表示某单个字符匹配中括号内的任一字符即匹配成功

x[abc]z ：可以匹配包含“xaz”、“xbz”、“xcz”的字符串
取反表示法：中括号内开头使用^, 表示只要不是中括号中的字符就匹配

x[^abc]z :可匹配包含“xdz”等字符串，但不能匹配包含“xaz”的字符串
范围表示法：

[a-z] ：代表任一单个小写字母

[^a-z] ：只要单个非小写字母的其它任一字符

[A-Z] ：代表任一单个大写字母

[0-9] ：代表任一单个数字

注：[0-59] 表示匹配0、1、2、3、4、5、9 而不是0到59中间的数值

[a-z0-9A-Z] ：代表任一字母或数字

[a-z0-9A-Z_] ：代表任一字母、数字或下划线，即匹配单词字符（word）

注：[A-z]或[a-Z] ：建议不要使用这种横跨大小写字母的范围表达式，不同地方表达的含义不同；甚至有些按照字典顺序排序时，[a-d]不是等价于abcd，而是等价于aBbCcDd。如果想要等价于abcd，应将locale环境设置为C：LC_ALL=C
特殊元字符在中括号中的匹配：

想要在中括号中匹配^，需将其放在中括号的非开头位置，如[a^]

想要在中括号中匹配-，需将其放在开头位置或结尾位置，如[abc-]、[-abc]

想要在中括号中匹配]，需将其放在开头位置，如[]abc]

想要匹配上面2个或3个元字符，[]^]、[-^]、[]-] []^-]

将字符分成不同的类别，称为字符类（character class）

下面是POSIX标准的字符类

字符类	含义
`[:lower:]`	等价于`a-z`
`[:upper:]`	等价于`A-Z`
`[:alpha:]`	等价于`A-Za-z`，也等价于`[:lower:]+[:upper:]`
`[:digit:]`	等价于`0-9`
`[:alnum:]`	等价于`0-9A-Za-z`，也等价于`[:lower:]+[:upper:]+[:digit:]`
`[:xigit:]`	匹配十六进制数字 `0 1 2 3 4 5 6 7 8 9 A B C D E F a b c d e f`
`[:blank:]`	匹配空格或制表符