1、什么是正则表达式?
正则表达式几乎在所有的编程语言中都有涉及,学好正则表达式,对于建立编程思维有很大的作用。那么什么是正则表达式呢?
官方定义为:
正则表达式是用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的模式分割、匹配、查找及替换操作。
2、正则表达式与通配符的区别
- 正则表达式用来在文件中匹配符合条件的字符串,正则是包含匹配。grep、awk、sed等命令可以支持正则表达式
- 通配符用来匹配符合条件的文件名,通配符是完全匹配。ls、find、cp这些命令不支持正则表达式,所以只能用shell自己的通配符来进行匹配
linux中的通配符主要有如下三种:
通配符 | 作用 |
* | 匹配任意多个字符 |
? | 匹配任意一个字符 |
[ ] | 匹配中括号中写的一个字符 |
[a-z] | 表示匹配a到z中的某个字母 |
[^0-9] | 表示匹配不是数字的一个字符 |
3、基础正则表达式
正则表达式主要分为基础正则表达式与扩展正则表达式,在linux中扩展正则表达式用得比较少,一般只用于某些特殊场合,先学习基础正则表达式的用法,日后工作如果碰到扩展正则表达式的需求再查阅读相关资料。以下这些正则表达式的元字符需要亲自在linux中反复练习,熟练掌握,日后用处极大。
元字符 | 作用 |
* | 前一个字符匹配0次或任意多次 |
. | 匹配除了换行外任意一个字符 |
^ | 匹配行首。例如:^hello会匹配以hello开头的行 |
$ | 匹配行尾。例如:hello$会匹配以hello结尾的行 |
[ ] | 匹配中括号中指定的一个字符,例如:[aoeiu]匹配任意一个元音字母,[0-9]匹配任意一个数字字符。[a-z][0-9]匹配任意小写字母和一个数字构成的两位字符 |
[^] | 匹配除中括号的字符以外的任意一个字符。例如:[^0-9]匹配任意一位非数字字符,[^a-z]表示任意一位非小写字母。 |
\ | 转义符。用于将特殊符号含义的取消。 |
\ {n\} | 表示其前面的字符恰好出现n次。例如:[0-9]\{4\}匹配4位有效数字,[1][3-8][0-9]{9\}匹配手机号码 |
\ {n,\} | 表示其前面的字符出现不小于n次。例如:[0-9]{2,\}表示两位及以上的数字 |
\ {n,m\} | 表示其前面的字符至少出现n次,最多出现m次。例如:[a-z]\{6,8\}匹配6到8位的小写字母 |
4、与基础正则表达式相关的练习
首先,将grep作为grep --color=auto的别名,使使用grep匹配到的内容可以以颜色显示出来(.bashrc配置文件在用户的家目录下,添加完成后还需要使用source命令使配置文件立即生效)
然后准备如下文件:fa
"*"的用法
接着使用grep "a*" fa命令,结果如下:
可见"a*"表示匹配0次或任意多次a字符的内容,所以整个文件都被列出来了,这与通配符中的"*"的含义不相同(需要多加注意),如果想匹配含有a的行,应该使用命令:grep "aa*" fa,结果如下:
再来学习"."(这个类似于统配符"?",表示匹配任意一个字符),所做的练习如下:
"^"匹配行首,"$"匹配行尾
另外,"^$"表示匹配空行,但由于空行不显示,无法验证,(但可以在grep命令加上-n选项,显示行号),结果如下
"[ ]"的用法与通配符"[ ]"一致,具体实例为:
"\ {n\}"与"\ {n,\}"与"\ {n,m\}"的用法