正则表达式
在文字处理的过程中,正则表达式极其有用。
它提供了一种处理文字串的一种规则,结合特殊的字符,以行为单位处理字串,很容易进行搜寻、删除、替换等操作。
对正则支持的工具也很多,比较常用的有vim、grep、sed、awk等。
注意正则与shell通配符的区别,同样的字符含义大相径庭。
在不支持正则的命令下,也可以结合支持正则的工具共同使用。如下的指令获取所有以a开头的文件:
ls | grep -n '^a.*'
基础正则表达式符号汇总(摘自鸟哥):
sed
sed是一个管线命令,可以对数据行进行替换、删除、新增、提取等操作。
sed命令格式如下:
sed [-nefr] [动作]
其中:
-n :使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN 的数据一般都会被列出到屏幕上。但如果加上 -n 参数后,则只有经过 sed 特殊处理的那一行(或者动作)才会被列出来。
-e :直接在命令行界面上进行 sed 的动作编辑;
-f :直接将 sed 的动作写在一个文件内, -f filename 则可以执行 filename 内的 sed 动作;
-r :sed 的动作支持的是延伸型正则表达式的语法。(默认是基础正则表达式语法)
-i :直接修改读取的文件内容,而不是由屏幕输出。
动作说明: [n1[,n2]]function
n1, n2 :选择进行动作的行数,如果我的动作是需要在 10 到 20 行之间进行的,则“ 10,20[动作行为] ”
function 取值如下:
a :新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)
c :取代, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行!
d :删除,后面通常不接任何东西;
i :插入, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行);
p :打印,亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行
s :取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正则表达式!例如 1,20s/old/new/g
举例:
nl a | sed -n '5,7p' # 只显示文件a的5-7行,特别方便
cat a.sh | sed 's/#.*$//g' #删除以#开头的行
sed -i "s/old/new/g" a # 替换a中所有old为new,直接修改文件,请谨慎操作
awk
相对于sed的行处理功能,awk主要以行中的字段为单位进行列处理。
格式:awk '条件类型1{动作1} 条件类型2{动作2} ...' filename
awk的内置变量:
变量 | 含义 |
---|---|
NF | 每行的字段数 |
NR | 目前awk处理的行号 |
FS | 使用的分隔符,默认是空格 |
示例如下:
cat a | awk '{FS=":"} {print $1}' # 对a中以:为分隔符,并打印第一列。第一行不会被正确打印,因为刚读取时仍以空格为分隔符
cat a | awk 'BEGIN {FS=":"} {print $1}' # 解决第一行未正确显示的问题
cat a | awk 'NR==1 {print $1}; NR>=2 {print $3}' #对第一行,打开第1列,第2行之后,打印第3列
小结
正则表达式用途广泛,刚开始有些规则难以记忆,用多了就好了。
一旦使用熟练,你会发现处理文本数据时效率会高很多。
本文只是简单介绍,还有更多内容可以通过man获取完整说明。