linux下的文本处理工具awk学习

一.原理

awk 是⼀种编程语⾔,⽤于在 linux/unix 下对⽂本和数据进⾏处理。
awk 数据可以来⾃标准输⼊、⼀个或多个⽂件,或其它命令的输出。
awk 通常是配合脚本进⾏使⽤ , 是⼀个强⼤的⽂本处理⼯具。
awk 的处理⽂本和数据的⽅式如下 :
1. 进⾏逐⾏扫描⽂件 , 从第⼀⾏到最后⼀⾏
2. 寻找匹配的特定模式的⾏ , 在⾏上进⾏操作
3. 如果没有指定处理动作 , 则把匹配的⾏显示到标准输出
4. 如果没有指定模式,则所有被操作的⾏都被处理
具体实现逻辑:
1.awk 使⽤⼀⾏作为输⼊,并将这⼀⾏赋给内部变量 $0 每⼀⾏也可称为⼀个记录,以换⾏
符结束
2.awk 进⾏字段分解,每个字段存储在已编号的变量中,从 $1 开始
3.awk 默认情况下的分隔符是空格 , 是由内部变量 FS 来确定字段分隔符。初始 FS 为空格
4.awk 打印字段 , 将以设置的⽅法使⽤ print 函数打印
5.awk 在打印的字段间加上空格,因为 $1,$3 之间有⼀个逗号。逗号它映射为另⼀个内部变
量,称为输出字段分隔符 OFS 默认为空格
6.awk 输出之后,将从⽂件中获取另⼀⾏,并将其存储在 $0 中,覆盖原来的内容,然后将
新的字符串分隔成字段并进⾏处理。该过程将持续到所有⾏处理完毕。
awk的语法格式
Usage: awk [POSIX or GNU style options] -f progfile [--] file ...
Usage: awk [POSIX or GNU style options] [--] 'program' file ...
POSIX options:		GNU long options: (standard)
	-f progfile		--file=progfile
	-F fs			--field-separator=fs
	-v var=val		--assign=var=val
Short options:		GNU long options: (extensions)
	-b			--characters-as-bytes
	-c			--traditional
	-C			--copyright
	-d[file]		--dump-variables[=file]
	-e 'program-text'	--source='program-text'
	-E file			--exec=file
	-g			--gen-pot
	-h			--help
	-L [fatal]		--lint[=fatal]
	-n			--non-decimal-data
	-N			--use-lc-numeric
	-O			--optimize
	-p[file]		--profile[=file]
	-P			--posix
	-r			--re-interval
	-S			--sandbox
	-t			--lint-old
	-V			--version

To report bugs, see node `Bugs' in `gawk.info', which is
section `Reporting Problems and Bugs' in the printed version.

gawk is a pattern scanning and processing language.
By default it reads standard input and writes standard output.

Examples:
	gawk '{ sum += $1 }; END { print sum }' file
	gawk -F: '{ print $1 }' /etc/passwd
command
  BEGIN { }                     {}                   END{}
  ⾏处理前                 ⾏处理            ⾏处理后
awk   'BEGIN  { print 1/2}  { print "ok" }  END  { print "Game Over" }'   /etc/h
osts
示例
[root@TDCS dsrw]# awk 'BEGIN {print 1/2} {print "ok"} END {print "Game Over"}' /etc/hosts
0.5
ok
ok
Game Over
awk 命令格式
[root@TDCS dsrw]# awk /root/ /etc/passwd   #匹配/root关键字的行,/awk 'pattern' filename匹配⽂件
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

[root@TDCS dsrw]# awk -F: '{print $1}' /etc/passwd  #awk '{action}'	filename对⽂件⾏进⾏动作处理
root
bin
daemon
adm
lp
sync
shutdown
halt
mail
operator
games
ftp
nobody
avahi-autoipd
systemd-bus-proxy
systemd-network
dbus
polkitd
tss
postfix
sshd
mysql
ntp

//awk 'pattern {action}'filename匹配+处理动作
awk -F':' '/root/ {print $1,$3}' /etc/passwd #匹配/root关键字,并打印$1,$3
root 0
operator 11

awk	'BEGIN{FS=":"} /root/ {print $1,$3}' /etc/passwd  #匹配/root关键字,并打印$1,$3

//command |awk 'pattern	{action}' //判断⼤于多少则输出什么内容
[root@TDCS dsrw]# df |awk '/\/$/ {if($3>50000) print $4}'
43213140




二.Awk 内部变量
$0   保存当前记录的内容
示例
[root@TDCS dsrw]# awk '{print $0}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
avahi-autoipd:x:170:170:Avahi IPv4LL Stack:/var/lib/avahi-autoipd:/sbin/nologin
systemd-bus-proxy:x:999:997:systemd Bus Proxy:/:/sbin/nologin
systemd-network:x:998:996:systemd Network Management:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
polkitd:x:997:995:User for polkitd:/:/sbin/nologin
tss:x:59:59:Account used by the trousers package to sandbox the tcsd daemon:/dev/null:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
mysql:x:27:27:MySQL Server:/var/lib/mysql:/bin/false
ntp:x:38:38::/etc/ntp:/sbin/nologin
NR 控制输⼊的总⾏数
示例
[root@TDCS dsrw]# awk '{print NR,$0}' /etc/passwd
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
4 adm:x:3:4:adm:/var/adm:/sbin/nologin
5 lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
6 sync:x:5:0:sync:/sbin:/bin/sync
7 shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
8 halt:x:7:0:halt:/sbin:/sbin/halt
9 mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
10 operator:x:11:0:operator:/root:/sbin/nologin
11 games:x:12:100:games:/usr/games:/sbin/nologin
12 ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
13 nobody:x:99:99:Nobody:/:/sbin/nologin
14 avahi-autoipd:x:170:170:Avahi IPv4LL Stack:/var/lib/avahi-autoipd:/sbin/nologin
15 systemd-bus-proxy:x:999:997:systemd Bus Proxy:/:/sbin/nologin
16 systemd-network:x:998:996:systemd Network Management:/:/sbin/nologin
17 dbus:x:81:81:System message bus:/:/sbin/nologin
18 polkitd:x:997:995:User for polkitd:/:/sbin/nologin
19 tss:x:59:59:Account used by the trousers package to sandbox the tcsd daemon:/dev/null:/sbin/nologin
20 postfix:x:89:89::/var/spool/postfix:/sbin/nologin
21 sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
22 mysql:x:27:27:MySQL Server:/var/lib/mysql:/bin/false
23 ntp:x:38:38::/etc/ntp:/sbin/nologin

[root@TDCS dsrw]# awk 'NR<=3' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
FNR 记录输⼊⽂件的编号
示例
[root@TDCS dsrw]# awk '{print FNR,$0}'/etc/passwd /etc/hosts
1 127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 TDCS
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 TDCS
2 ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
NF 保存⾏的最后⼀列内容
示例
[root@TDCS dsrw]# awk -F":" '{print $1,$NF}' /etc/passwd
root /bin/bash
bin /sbin/nologin
daemon /sbin/nologin
adm /sbin/nologin
lp /sbin/nologin
sync /bin/sync
shutdown /sbin/shutdown
halt /sbin/halt
mail /sbin/nologin
operator /sbin/nologin
games /sbin/nologin
ftp /sbin/nologin
nobody /sbin/nologin
avahi-autoipd /sbin/nologin
systemd-bus-proxy /sbin/nologin
systemd-network /sbin/nologin
dbus /sbin/nologin
polkitd /sbin/nologin
tss /sbin/nologin
postfix /sbin/nologin
sshd /sbin/nologin
mysql /bin/false
ntp /sbin/nologin
FS 指定字段分割符 , 默认空格
示例
[root@TDCS dsrw]# awk -F: '/root/ {print $1,$3}' /etc/passwd
root 0
operator 11


[root@TDCS dsrw]# awk 'BEGIN {FS=":"} {print $1,$3}' /etc/passwd
root 0
bin 1
daemon 2
adm 3
lp 4
sync 5
shutdown 6
halt 7
mail 8
operator 11
games 12
ftp 14
nobody 99
avahi-autoipd 170
systemd-bus-proxy 999
systemd-network 998
dbus 81
polkitd 997
tss 59
postfix 89
sshd 74
mysql 27
ntp 38


[root@TDCS dsrw]# awk -F '[:\t]' '{print $1,$2,$3}' /etc/passwd
root x 0
bin x 1
daemon x 2
adm x 3
lp x 4
sync x 5
shutdown x 6
halt x 7
mail x 8
operator x 11
games x 12
ftp x 14
nobody x 99
avahi-autoipd x 170
systemd-bus-proxy x 999
systemd-network x 998
dbus x 81
polkitd x 997
tss x 59
postfix x 89
sshd x 74
mysql x 27
ntp x 38
OFS 输出字段分隔符,初始为空格
示例
[root@TDCS dsrw]# awk -F: '/root/{print $1,$2,$3,$4}' /etc/passwd
root x 0 0
operator x 11 0



[root@TDCS dsrw]# awk 'BEGIN {FS=":";OFS="+++"} /root/{print $1,$2,$3,$4}' /etc/passwd
root+++x+++0+++0
operator+++x+++11+++0
RS 输⼊记录分隔符,默认为换⾏符
[root@TDCS dsrw]# awk -F: 'BEGIN {RS=""}{print $0}' /etc/hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 TDCS
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
ORS 将⽂件每⼀⾏合并为⼀⾏ , 以空格为分割
[root@TDCS dsrw]# awk -F: 'BEGIN {ORS=""}{print $0}' /etc/hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 TDCS::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

//通常情况下让输出分隔符为换⾏符,	然后依次打印响应的字段
awk -F":" 'BEGIN{OFS="\n"}{print $1,$2,$3,$4,$5,$6,$7}' /etc/passwd

//将RS记录值标记为冒号分割,	打印后相当于将每⾏的内容进⾏切割
 awk 'BEGIN {RS=":"} {print $0}' /etc/passwd
print 格式化输出函数
date|awk	'{print $2,"5⽉份""\n",$NF,"今年"}'

awk -F:'{print "⽤户是:" $1 "\t ⽤户uid:" $3"\t ⽤户gid:" $4}' /etc/passwd


printf 函数
%s 字符类型
% d 数值类型
15 字符
- 表示左对⻬,默认是右对⻬
printf 默认不会在⾏尾⾃动换⾏,加 \ n
[root@TDCS dsrw]# awk -F: '{printf"%-15s%-10s%-15s\n",$1,$2,$3}' /etc/passwd
root           x         0              
bin            x         1              
daemon         x         2              
adm            x         3              
lp             x         4              
sync           x         5              
shutdown       x         6              
halt           x         7              
mail           x         8              
operator       x         11             
games          x         12             
ftp            x         14             
nobody         x         99             
avahi-autoipd  x         170            
systemd-bus-proxyx         999            
systemd-networkx         998            
dbus           x         81             
polkitd        x         997            
tss            x         59             
postfix        x         89             
sshd           x         74             
mysql          x         27             
ntp            x         38     

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

忍冬行者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值