正则表达式基础用法和案例
正则表达式:REGEXP,REGular EXPression。
正则表达式是由一些具有特殊含义的字符组成的字符串,多用于查找、替换符合规则的字符串。
正侧表达式可分为基本与扩展两类。
一、元字符匹配
元字符就是有特定含义的字符。
字符 | 释义 |
---|---|
. | 任意单个字符 |
[] | 匹配指定范围内的任意单个字符 |
[^] | 匹配指定范围外的任意单个字符 |
示例一:
[root@localhost test]# ls
a ab abc abcd b c d
[root@localhost test]# ls | grep '^.$'
a
b
c
d
[root@localhost test]# ls | grep '^..$'
ab
每一个.
只可匹配到任意的单个字符。
示例二:
[root@localhost test]# ls
1 2 3 4 5 6 7 8 9 a ab abc abcd b c d
[root@localhost test]# ls | grep '^[abcde]$'
a
b
c
d
[root@localhost test]# ls | grep '^[a-d]$'
a
b
c
d
[root@localhost test]# ls | grep '^[-1-9a-c-]$'
1
2
3
4
5
6
7
8
9
a
b
c
[root@localhost test]# ls | grep '^[-19a-c-]$'
1
9
a
b
c
只显示中括号内指定的单个字符,-
放到开始位置表示其本身,放到不同类型两个字符之间表示本身,放到结束位置表示本身,放到相同类型两个字符之间可以表示范围。
示例三:
[root@localhost test]# ls
1 2 3 4 5 6 7 8 9 a ab abc abcd b c d
[root@localhost test]# ls | grep '^[^1-6]$'
7
8
9
a
b
c
d
[root@localhost test]# ls | grep '^[1-6^]$'
1
2
3
4
5
6
^
放在开始位置表示取反,其它任何位置都是表示其本身,取反就是除了指定范围内的值其它的都可以显示。
二、匹配次数
多用于重复匹配字符的次数。
字符 | 释义 |
---|---|
* | 匹配其前面的任意单个字符任意次 |
.* | 任意长度的任意字符 |
? | 匹配其前面的任意单个字符1次或0次 |
+ | 匹配其前面的任意单个字符至少1次 |
{m,n} | 匹配其前面的任意单个字符至少m次,至多n次 |
示例一:
[root@localhost test]# ls
aaab aaabbb aab aabbb ab abb abbb
[root@localhost test]# ls | grep '^a*b*$'
aaab
aaabbb
aab
aabbb
ab
abb
abbb
[root@localhost test]# ls | grep '^a*b$'
aaab
aab
ab
可以匹配0次或者任意次,也可能为空。
示例二:
[root@localhost test]# ls | grep '^a.*$'
aaab
aaabbb
aab
aabbb
ab
abb
abbb
匹配到以a开头的任意长度的任意字符。
示例三:
[root@localhost test]# ls
a aaab aaabbb aab aabbb ab abb abbb
[root@localhost test]# ls | grep '^ab\?$'
a
ab
匹配0次或者1次。
示例四:
[root@localhost test]# ls | grep '^ab\+$'
ab
abb
abbb
匹配前面字符至少1次,至多任意次。
示例五:
[root@localhost test]# ls | grep '^ab\{1,3\}$'
ab
abb
abbb
匹配单个字符至少1次,至多3次。
三、位置锚定
^ //锚定行首,此字符后面的任意单个字符必须出现在行首
$ //锚定行尾,此字符前面的任意单个字符必须出现在行尾
^$ //表示空白行
\<或\b //锚定词首,其后面的任意单个字符必须作为单词首部出现
\>或\b //锚定词尾,其前面的任意单个字符必须作为单词尾部出现
示例:
随便写一些内容到a文件里面
[root@localhost test]# cat > a << EOF
> lsshffaf lfadiajdifls alfdkjlsdd lslsls
>
> lsjdf ls lsls
> EOF
查看效果
四、后向引用
后向引用用于重复搜索前面某个分组匹配的文本。
使用小括号指定一个子表达式后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推
\1 //引用第一个左括号以及与之对应的右括号所包括的所有内容
\2 //引用第二个左括号以及与之对应的右括号所包括的所有内容
示例:
[root@localhost test]# echo 'hello world george!' | sed 's/hello \(.*\) \(.*\)/hello \2 \1/'
hello george! world
可以看到echo到的内容就被调换了位置。