9.1- 9.7 正则grep,sed,awk
正则表达式是软件开发中非常常用的文本编辑和操作工具,他可以自定义规则去筛选处理字符串。
虽然在Linux命令和shell中用的正则与软件开发中使用的正则不完全一样,但是两者也有很多相似之处。
完整的正则表达式规则可以参照 http://www.deerchao.net/tutorials/regex/regex.htm
正则表达式中常用的语法有:
用法 | 含义 |
---|---|
^ | 以什么字符开头 |
$ | 以什么字符结尾 |
[a-z] | 字母a-z中任意一个 |
[0-9] | 数字0-9中任意一个 |
* | 0个或多个字符 |
+ | 1个或多个字符 |
? | 0个或一个字符 |
{n} | 表示出现n次 |
{n1,n2} | 出现的次数在n1和n2之间 |
. | 一个除了换行之外的任意字符 |
[^0-9] | 非数字,这里的^与什么开头无关 |
grep/egrep
grep的用法如下:
grep -n 'word' filename
其中可选项有:
-c 打印符合要求的行数count
-i 忽略大小写 ignore case
-n 输出符合要求的行及行号 line number
-v 输出不符合要求的行 invert match
-A 后面跟一个数字,例如-A2表示输出符合要求的行以及下面两行
-B 后面跟一个数字,例如-B2表示输出符合要求的行以及上面两行
-C 后面跟一个数字,例如-C2表示输入符合要求的行以及上下两行
[root@centos-01 ~]# grep -A2 'halt' /etc/passwd //输出符合要求的行以及下面两行
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
[root@centos-01 ~]# grep -n 'root' /etc/passwd //输出含root的行
1:root:x:0:0:root:/root:/bin/bash
10:operator:x:11:0:operator:/root:/sbin/nologin
[root@centos-01 ~]# grep -nv 'nologin' /etc/passwd //输出不含关键词的行
1:root:x:0:0:root:/root:/bin/bash
6:sync:x:5:0:sync:/sbin:/bin/sync
7:shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
[root@centos-01 ~]# grep '[0-9]' /etc/inittab //输出含有数字的行
# multi-user.target: analogous to runlevel 3
# graphical.target: analogous to runlevel 5
[root@centos-01 ~]# grep -v '[0-9]' /etc/inittab //输出不含数字的行
# inittab is no longer used when using systemd.
#
# ADDING CONFIGURATION HERE WILL HAVE NO EFFECT ON YOUR SYSTEM.
#
# Ctrl-Alt-Delete is handled by /usr/lib/systemd/system/ctrl-alt-del.target
grep -v '^#' /etc/sos.conf //过滤掉以#开头的行
grep -v '^#' /etc/sos.conf | grep -v '^$' //过滤掉以#开头的行和空行
[root@centos-01 ~]# grep 'r.t' /etc/passwd //.表示任意一个字符,用这种方式可以过滤出r与o之间的任意一个字符
operator:x:11:0:operator:/root:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
[root@centos-01 ~]# grep 'ooo*' /etc/passwd //ooo*表示零个或多个前面的字符,这里表示两个或多个o字符
root:x:0:0:root:/root:/bin/bash
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
[root@centos-01 ~]# grep '.*' /etc/passwd|wc -l //.*表示任意零个或者多个字符,所以空行也包含在内
24
[root@centos-01 ~]# grep 'o\{2\}' /etc/passwd //表示过滤出o重复两次的字符,{前面需要加上转义符\。
root:x:0:0:root:/root:/bin/bash
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
egrep
[root@centos-01 ~]# egrep 'o+' /tmp/test.txt //过滤出一个或多个字符o。+不能直接被grep使用,需要加转义符,但是在grep里可以直接使用
root:x:0:0:root:/root:/bin/bash
ratt:x:0:0:root:/root:/bin/bash
[root@centos-01 tmp]# egrep 'o?' test.txt //滤出零个或一个指定的字符o
root:x:0:0:root:/root:/bin/bash
ratt:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
[root@centos-01 tmp]# egrep 'aaa|111|oo' test.txt //过滤出字符串1或字符串2或字符串3
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
1111111111111111111111111111111111111
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
sed
sed的使用方式是sed -n 'n'p filename
单引号里面的n是数字,表示行号
-n很重要,只有-n才会输出与结果有关的行,不然就是全部输出
sed -n '1,$'p filename
//打印第一行到最后一行
sed -n '1,4'p filename
//打印第一行到第四行
sed -n '/root/'p filename
//打印包含字符串root的行
sed -n '/^1/'p filename
//打印以1开头的行
sed -n '/nologin$/'p filename
//打印以nologin结尾的行
[root@centos-01 tmp]# sed -e '1'p -e '/111/'p -n test.txt //-e表示执行多个动作,输出第一行,同时也输出含111的行
root:x:0:0:root:/root:/bin/bash
1111111111111111111111111111111111111
[root@centos-01 tmp]# sed '1'd test.txt //删除第一行
ratt:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
[root@centos-01 tmp]# sed '/root/'d test.txt //删除含root的行
sed '1,2s/ot/to/g' test.txt //在第一行和第二行里用to替换ot,g表示每行全部替换,没有g表示只替换每行的第一个。用法与vim一样。
sed 's/[0-9]//g' test.txt //删除文档中所有的数字
sed 's/\(rot\)\(.*\)\(bash\)/\3\2\1/' test.txt //交换rot与bash的位置,其中()前面需要用到转义符\
或者可以通过-r避免使用这些转义符:
sed -r 's/(rot)(.*)(bash)/\3\2\1/' test.txt
sed 's/^.*/123&/' test.txt //通过这种方式在指定的行前加入字符
123rot:x:0:0
以上这些操作实际上都没有修改文件的内容,通过-i选项,可以修改文件的内容。
sed -i 's/ot/to/g' test.txt
awk
截取文档中的某个段:
awk -F ':' '{print $1}' test.txt
//-F为指定的分隔符,如果没有-F则以空格或者tab为分隔符。print为打印动作,此处表示打印第一段。但$0比较特殊,表示整行
print里可以加入自定义符号,但是需要用双引号包起来。
awk -F ':' '{print $1"#"$2"#"}' test.txt
root#x#
匹配字符串:
awk '/oo/' test.txt
//匹配含oo的行
让某段去匹配:
awk -F ':' '$1~/oo/' test.txt
//让第一段去匹配,~表示匹配
条件判断
awk -F ':' '$3=="0"' /etc/passwd
//做等号判断时,数字加双引号没有问题,但是如果是大于或者小于的判断,数字加引号则会被认为是字符
awk -F ':' '$3==300' /etc/passwd
//正确的书写方式
还可以比较>, >=,<,<=,!=。
也可以在两个段之间进行比较,如:
awk -F ':' '$3<$4' /etc/passwd
同时也可以用&&和||进行比较。
awk -F ':' '$3>5&&$3<7' /etc/passwd
awk -F ':' '$3>5||$4<7' /etc/passwd
awk的内置变量
awk常用的内置变量有OFS,NF和NR。OFS和-F类似,也是用来定义分隔符。但是他是在输出的时候定义。NF表示分隔后一共有多少段。NR表示行号。
awk -F ':' '{OFS="#"} {print $1,$2,$4}' /etc/passwd
root#x#0
bin#x#1
daemon#x#2
awk -F ':' '{OFS="#"} {if($3>1000){print $1,$2,$4}}' /etc/passwd
变量NF的用法:
awk -F ':' '{print NF}' //打出每一行都多少段
7
awk -F ':' '{print $NF}' //$表示打出每一行的最后一段
/bin/bash
/sbin/nologin
NR的用法:
[root@centos-01 ~]# awk -F ':' '{print NR}' /etc/passwd //仅仅只打出行号
1
2
awk 'NR>40' /etc/passwd //打出行号大于40的行
awk -F ':' 'NR<20 &&$1~/root/' /etc/passwd //按匹配条件打印行
awk中的数学运算:
awk -F ':' '$1="root"' /etc/passwd //更改字段值
[root@centos-01 ~]# awk -F ':' '{$7=$3+$4;print $0}' /etc/passwd //加了print $0才能打印出来,不然不能打印
awk -F ':' '{if($1=="root") {print $0}}' /etc/passwd
[root@centos-01 ~]# awk -F ':' '{(sum+=$4)};END {print sum}' test.txt //整个文档的第4个字段进行累加
6761