awk 文本处理语言
awk 的一些基础概念
awk
所有的操作都是基于 pattern(模式)—action(动作)对来完成的,如下面的形式:
pattern {action}
你可以看到就如同很多编程语言一样,它将所有的动作操作用一对 {}
花括号包围起来。
其中 pattern
通常是表示用于匹配输入的文本的“关系式”或“正则表达式”,action
则是表示匹配后将执行的动作。
在一个完整 awk
操作中,这两者可以只有其中一个,如果没有 pattern
则默认匹配输入的全部文本,如果没有 action
则默认为打印匹配内容到屏幕。
awk
处理文本的方式,是将文本分割成一些“字段”,然后再对这些字段进行处理,默认情况下,awk
以空格作为一个字段的分割符,不过这不是固定的,你可以任意指定分隔符。
awk 命令基本格式
awk [-F fs] [-v var=value] [-f prog-file | 'program text'] [file...]
其中 -F
参数用于预先指定前面提到的字段分隔符(还有其他指定字段的方式),-v
用于预先为 awk
程序指定变量,-f
参数用于指定 awk
命令要执行的程序文件,或者在不加 -f
参数的情况下直接将程序语句放在这里,最后为 awk
需要处理的文本输入,且可以同时输入多个文本文件。
awk 操作体验
先用 vim 新建一个文本文档:
vim test
包含如下内容:
I like linux
www.shiyanlou.com
- 使用 awk 将文本内容打印到终端:
# "quote>" 不用输入
awk '{
quote> print
quote> }' test
# 或者写到一行
awk '{print}' test
说明:在这个操作中我是省略了 pattern,所以 awk 会默认匹配输入文本的全部内容,然后在 {}
花括号中执行动作,即 print 打印所有匹配项,这里是全部文本内容。
- 将 test 的第一行的每个字段单独显示为一行:
$ awk '{
> if(NR==1){
> print $1 "\n" $2 "\n" $3
> } else {
> print}
> }' test
# 或者
$ awk '{
> if(NR==1){
> OFS="\n"
> print $1, $2, $3
> } else {
> print}
> }' test
NR
与 OFS
,这两个是 awk 内建的变量,NR
表示当前读入的记录数,你可以简单的理解为当前处理的行数,OFS
表示输出时的字段分隔符,默认为""空格。
如上图所见,我们将字段分隔符设置为 \n
换行符,所以第一行原本以空格为字段分隔的内容就分别输出到单独一行了。
然后是 $N
其中 N 为相应的字段号,这也是 awk 的内建变量,它表示引用相应的字段,因为我们这里第一行只有三个字段,所以只引用到了 $3
。除此之外另一个这里没有出现的 $0,它表示引用当前记录(当前行)的全部内容。
- 将 test 的第二行的以点为分段的字段换成以空格为分隔:
awk -F'.' '{
> if(NR==2){
> print $1 "\t" $2 "\t" $3
> }}' test
# 或者
awk '
> BEGIN{
> FS="."
> OFS="\t" # 如果写为一行,两个动作语句之间应该以";"号分开
> }{
> if(NR==2){
> print $1, $2, $3
> }}' test
这里的 -F
参数,用来预先指定待处理记录的字段分隔符。
除了指定 OFS
,我们还可以在 print 语句中直接打印特殊符号,如这里的 \t
,print 打印的非变量内容都需要用""
一对引号包围起来。
上面另一个版本,展示了实现预先指定变量分隔符的另一种方式,即使用 BEGIN
,这个表达式指示了,其后的动作将在所有动作之前执行,这里 FS
赋值了新的 .
点号代替默认的空格。
awk 常用的内置变量
变量名 | 说明 |
---|---|
FILENAME | 当前输入文件名,若有多个文件,则只表示第一个。如果输入是来自标准输入,则为空字符串 |
$0 | 当前记录的内容 |
$N | N 表示字段号,最大值为NF变量的值 |
FS | 字段分隔符,由正则表达式表示,默认为空格 |
RS | 输入记录分隔符,默认为 \n,即一行为一个记录 |
NF | 当前记录字段数 |
NR | 已经读入的记录数 |
FNR | 当前输入文件的记录数,请注意它与 NR 的区别 |
OFS | 输出字段分隔符,默认为空格 |
ORS | 输出记录分隔符,默认为 \n |
更多使用方法见:
AWK 简明教程:https://coolshell.cn/articles/9070.html
awk 程序设计语言:https://awk.readthedocs.io/en/latest/chapter-one.html#awk