正则grep,sed,awk

9.1- 9.7 正则grep,sed,awk

正则表达式是软件开发中非常常用的文本编辑和操作工具,他可以自定义规则去筛选处理字符串。

虽然在Linux命令和shell中用的正则与软件开发中使用的正则不完全一样,但是两者也有很多相似之处。

完整的正则表达式规则可以参照 http://www.deerchao.net/tutorials/regex/regex.htm

正则表达式中常用的语法有:

用法含义
^以什么字符开头
$以什么字符结尾
[a-z]字母a-z中任意一个
[0-9]数字0-9中任意一个
*0个或多个字符
+1个或多个字符
0个或一个字符
{n}表示出现n次
{n1,n2}出现的次数在n1和n2之间
.一个除了换行之外的任意字符
[^0-9]非数字,这里的^与什么开头无关

grep/egrep

grep的用法如下:
grep -n 'word' filename

其中可选项有:
-c 打印符合要求的行数count
-i 忽略大小写 ignore case
-n 输出符合要求的行及行号 line number
-v 输出不符合要求的行 invert match
-A 后面跟一个数字,例如-A2表示输出符合要求的行以及下面两行
-B 后面跟一个数字,例如-B2表示输出符合要求的行以及上面两行
-C 后面跟一个数字,例如-C2表示输入符合要求的行以及上下两行

[root@centos-01 ~]# grep -A2 'halt' /etc/passwd //输出符合要求的行以及下面两行
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin

[root@centos-01 ~]# grep -n 'root' /etc/passwd  //输出含root的行
1:root:x:0:0:root:/root:/bin/bash
10:operator:x:11:0:operator:/root:/sbin/nologin

[root@centos-01 ~]# grep -nv 'nologin' /etc/passwd  //输出不含关键词的行
1:root:x:0:0:root:/root:/bin/bash
6:sync:x:5:0:sync:/sbin:/bin/sync
7:shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown

[root@centos-01 ~]# grep '[0-9]' /etc/inittab //输出含有数字的行
# multi-user.target: analogous to runlevel 3
# graphical.target: analogous to runlevel 5

[root@centos-01 ~]# grep -v '[0-9]' /etc/inittab  //输出不含数字的行
# inittab is no longer used when using systemd.
#
# ADDING CONFIGURATION HERE WILL HAVE NO EFFECT ON YOUR SYSTEM.
#
# Ctrl-Alt-Delete is handled by /usr/lib/systemd/system/ctrl-alt-del.target

grep -v '^#' /etc/sos.conf  //过滤掉以#开头的行

grep -v '^#' /etc/sos.conf | grep -v '^$'  //过滤掉以#开头的行和空行

[root@centos-01 ~]# grep 'r.t' /etc/passwd  //.表示任意一个字符,用这种方式可以过滤出r与o之间的任意一个字符
operator:x:11:0:operator:/root:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin

[root@centos-01 ~]# grep 'ooo*' /etc/passwd //ooo*表示零个或多个前面的字符,这里表示两个或多个o字符
root:x:0:0:root:/root:/bin/bash
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin

[root@centos-01 ~]# grep '.*' /etc/passwd|wc -l  //.*表示任意零个或者多个字符,所以空行也包含在内
24

[root@centos-01 ~]# grep 'o\{2\}' /etc/passwd  //表示过滤出o重复两次的字符,{前面需要加上转义符\。
root:x:0:0:root:/root:/bin/bash
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin

egrep

[root@centos-01 ~]# egrep 'o+' /tmp/test.txt  //过滤出一个或多个字符o。+不能直接被grep使用,需要加转义符,但是在grep里可以直接使用
root:x:0:0:root:/root:/bin/bash
ratt:x:0:0:root:/root:/bin/bash

[root@centos-01 tmp]# egrep 'o?' test.txt  //滤出零个或一个指定的字符o
root:x:0:0:root:/root:/bin/bash
ratt:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin

[root@centos-01 tmp]# egrep 'aaa|111|oo' test.txt //过滤出字符串1或字符串2或字符串3
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
1111111111111111111111111111111111111
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

sed

sed的使用方式是sed -n 'n'p filename 单引号里面的n是数字,表示行号

-n很重要,只有-n才会输出与结果有关的行,不然就是全部输出

sed -n '1,$'p filename//打印第一行到最后一行
sed -n '1,4'p filename //打印第一行到第四行

sed -n '/root/'p filename //打印包含字符串root的行
sed -n '/^1/'p filename //打印以1开头的行
sed -n '/nologin$/'p filename //打印以nologin结尾的行

[root@centos-01 tmp]# sed -e '1'p -e '/111/'p -n test.txt //-e表示执行多个动作,输出第一行,同时也输出含111的行
root:x:0:0:root:/root:/bin/bash
1111111111111111111111111111111111111
[root@centos-01 tmp]# sed '1'd test.txt  //删除第一行
ratt:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin

[root@centos-01 tmp]# sed '/root/'d test.txt  //删除含root的行
sed '1,2s/ot/to/g' test.txt //在第一行和第二行里用to替换ot,g表示每行全部替换,没有g表示只替换每行的第一个。用法与vim一样。

sed 's/[0-9]//g' test.txt //删除文档中所有的数字

sed 's/\(rot\)\(.*\)\(bash\)/\3\2\1/' test.txt //交换rot与bash的位置,其中()前面需要用到转义符\

或者可以通过-r避免使用这些转义符:
sed -r 's/(rot)(.*)(bash)/\3\2\1/' test.txt

sed 's/^.*/123&/' test.txt //通过这种方式在指定的行前加入字符
123rot:x:0:0

以上这些操作实际上都没有修改文件的内容,通过-i选项,可以修改文件的内容。

sed -i 's/ot/to/g' test.txt

awk

截取文档中的某个段:
awk -F ':' '{print $1}' test.txt //-F为指定的分隔符,如果没有-F则以空格或者tab为分隔符。print为打印动作,此处表示打印第一段。但$0比较特殊,表示整行

print里可以加入自定义符号,但是需要用双引号包起来。
awk -F ':' '{print $1"#"$2"#"}' test.txt
root#x#

匹配字符串:
awk '/oo/' test.txt //匹配含oo的行

让某段去匹配:
awk -F ':' '$1~/oo/' test.txt //让第一段去匹配,~表示匹配

条件判断
awk -F ':' '$3=="0"' /etc/passwd //做等号判断时,数字加双引号没有问题,但是如果是大于或者小于的判断,数字加引号则会被认为是字符

awk -F ':' '$3==300' /etc/passwd //正确的书写方式

还可以比较>, >=,<,<=,!=。
也可以在两个段之间进行比较,如:
awk -F ':' '$3<$4' /etc/passwd

同时也可以用&&和||进行比较。
awk -F ':' '$3>5&&$3<7' /etc/passwd
awk -F ':' '$3>5||$4<7' /etc/passwd

awk的内置变量
awk常用的内置变量有OFS,NF和NR。OFS和-F类似,也是用来定义分隔符。但是他是在输出的时候定义。NF表示分隔后一共有多少段。NR表示行号。

awk -F ':' '{OFS="#"} {print $1,$2,$4}' /etc/passwd
root#x#0
bin#x#1
daemon#x#2

awk -F ':' '{OFS="#"} {if($3>1000){print $1,$2,$4}}' /etc/passwd

变量NF的用法:

awk -F ':' '{print NF}'   //打出每一行都多少段
7

awk -F ':' '{print $NF}'   //$表示打出每一行的最后一段
/bin/bash
/sbin/nologin

NR的用法:

[root@centos-01 ~]# awk -F ':' '{print NR}' /etc/passwd  //仅仅只打出行号
1
2

awk 'NR>40' /etc/passwd  //打出行号大于40的行

awk -F ':' 'NR<20 &&$1~/root/' /etc/passwd  //按匹配条件打印行

awk中的数学运算:

awk -F ':' '$1="root"' /etc/passwd  //更改字段值

[root@centos-01 ~]# awk -F ':' '{$7=$3+$4;print $0}' /etc/passwd //加了print $0才能打印出来,不然不能打印

awk -F ':' '{if($1=="root") {print $0}}' /etc/passwd

[root@centos-01 ~]# awk -F ':' '{(sum+=$4)};END {print sum}' test.txt  //整个文档的第4个字段进行累加
6761
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值