awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息
awk处理过程: 依次对每一行进行处理,然后输出 默认分隔符是空格或者tab键
awk 参数 'BEGIN{处理之前要做的} {处理内容} END{处理之后的内容}'
BEGIN{} {} END{}
行处理前 行处理 行处理后
BEGIN{}在处理文本之前做的事情,只执行一次
{}在处理文本是做的事情,有多少次执行多少次
awk 'BEGIN{i=1}{print i++}' /etc/passwd
END{}在处理文之后做的事情,只执行一次
1、awk工作原理
awk -F":" '{print $1,$3}' /etc/passwd
①awk使用一行作为输入,并将这一行赋给变量$0,每一行可称作为一个记录,以换行符结束
②然后,行被:分解成字段,每个字段存储在已编号的变量中,从$1开始
③awk如何知道空格来分隔字段的呢?因为有一个内部变量FS来确定字段分隔符,初始时,FS赋为空格或者是tab
④awk打印字段时,将以设置的方法,使用print函数打印,awk在打印的字段间加上空格,因为$1,$3间有一个,逗号。逗 号比较特殊,映射为另一个变量,成为输出字段分隔符OFS,OFS默认为空格
⑤awk打印字段时,将从文件中获取每一行,并将其存储在$0中,覆盖原来的内容,然后将新的字符串分隔成字段并进行处理。该过程持续到处理文件结束。
默认分隔符是空格或者tab键
awk中的特殊变量:
常用:
- NR: 表示记录编号, 当awk将行为记录时, 该变量相当于当前行号
- NF: 表示字段数量, 当awk将行为记录时, 该变量相当于当前列号
其它:
FS(输入字段分隔符)
OFS(输出字段分隔符)
NR(Number of record)行数
FNR按不同的文件分开
RS(输入记录分隔符) awk 'BEGIN{RS=" "}{print$0}' sararies.txt
ORS(输出记录分隔符)
NF 字段个数
2、FS(输入字段分隔符)
awk 'BEGIN{FS=":"} {print $1}' /etc/passwd
3、OFS(输出字段分隔符)
awk 'BEGIN{FS=":";OFS=".."} {print $1,$2}' /etc/passwd
4、NR 表示记录编号, 当awk将行为记录时, 该变量相当于当前行号
awk -F':' '{print NR,$0}' a.txt file.txt
5、FNR 表示记录编号, 当awk将行为记录时, 该变量相当于当前行号(不同文件分开)
awk -F':' '{print FNR,$0}' a.txt file.txt
6、RS(输入记录分隔符)
awk -F':' 'BEGIN{RS="bash"} {print $0}' /etc/passwd
7、ORS(输出记录分隔符)
awk -F':' 'BEGIN{ORS=" "} {print $0}' /etc/passwd
8、扩展:格式化打印
printf "%5s\t%5s\n" "hello" "world"
printf "%5s\t%5s\n" "ni" "hao"
9、用法
①打印文件中的第2列和第3列
awk -F':' '{print $2, $3}' /etc/passwd
②打印指定行指定列的某个字符
awk -F':' 'NR==3{ print $7 }' /etc/passwd
③统计一个文件的行数
awk '{ print NR}' /etc/passwd
④在脚本中, 传递变量到awk中
var=1000
echo | awk -v VARIABLE=$var '{ print VARIABLE }'
⑤指定字段分隔符-F
awk -F':' '{ print $2, $3 }' /etc/passwd
⑥在awk中使用for循环
每行打印两次
awk -F':' '{for(i=1;i<=2;i++) {print $0}}' /etc/passwd
分别打印每行每列
awk -F':' '{ for(i=1;i<=NF;i++) {print $i}}' /etc/passwd
⑦在awk中使用if条件判断
显示管理员用户名
awk -F':' '{if($3==0) {print $1 " is administrator."}}' /etc/passwd
统计系统用户
awk -F':' '{if($3>0 && $3<1000){i++}} END{print i}' /etc/passwd