awk命令详细说明

2401_84815407

于 2024-05-14 00:23:19 发布

阅读量1k

点赞数 15

分类专栏：程序员文章标签： mysql 数据库 java

本文链接：https://blog.csdn.net/2401_84815407/article/details/138825445

版权

程序员专栏收录该内容

112 篇文章 0 订阅

订阅专栏

awk 允许使用正则表达式，根据正则表达式是否匹配当前行来选择执行独立代码块。以下示例脚本只输出bill中包含字符序列8613902700003的那些行：awk '/8613902700003/ { print }' bill

当然，可以使用更复杂的正则表达式：/[0-9]*/ { print }

下面列出正则表达式元字符：

| 字符 | 描述 |

| — | — |

| .(英文句号) | 可代替除一行之外的任何单个字符，和*不同的是，这个只会打印含有条件的结果，如：awk '/t*/{print}' test.txt，不含有t的结果是不会被打印的 |

| * | 可代替零个或多个在它前面出现的字符 |

| [chars] | 可代替chars中的任何一个字符，chars是一串字符序列。你可以用-符号来定义一个字符范围。如果^是chars中的第一个字符，那么将匹配没有在chars中指定的字符 |

| ^ | 匹配一行的开头 |

| $ | 匹配一行的结尾 |

| \ | 把\后面的字符照常输出，通常用来转义（不使用特殊含义）一个元字符 |

.和*的区别，注：使用.和*需要加上/转移符，否则报错。

[root@ccx ccx]# awk ‘/t./{print}’ test.txt

this is a test

good things are about to happen

[root@ccx ccx]# awk ‘/t*/{print}’ test.txt

this is a test

good things are about to happen

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555

[root@ccx ccx]#

下面列出运算符表达式元字符：

| 运算符 | 描述 |

| — | — |

| = += -= *= /= %= ^= **= | 赋值 |

| ?: | C条件表达式 |

| || | 逻辑或 |

| && | 逻辑与 |

| ~和!~ | 匹配正则(包含)与不匹配，比如第二个参数中包含is的内容：$2 ~ is |

| < <= > >= != == | 关系运算符 |

| 空格 | 连接 |

| + - | 加，减 |

| * / % | 乘，除与求余 |

| + - ! | 一元加，减和逻辑非 |

| ^*** | 求幂 |

| ++ -- | 增加或减少，作为前缀或后缀 |

| $ | 字段引用 |

| in | 数组成员 |

| [0-9] | 代表一个单独的数字 |

| [a-z] | 代表一个单独的小写字母 |

| [A-Z] | 代表一个单独的大写字母 |

| [a-zA-Z] | 代表一个单独的字母 |

| [a-zA-Z 0-9] | 代表一个单独的字母或数字 |

bill内容如下：

4429300,0,8613902700001,8613902700002,8613800288500,2004/06/26 10:31:33,2004/06/26 10:31:33,0,0,0,4,6,1,0,0,0,0,2004/06/26 10:31:32,NULL,1,0,0,nihao@,

4429300,0,8613902700001,8613902700003,8613800288500,2004/06/26 10:31:33,2004/06/26 10:31:33,0,0,0,4,6,1,0,0,0,0,2004/06/26 10:31:32,NULL,1,0,0,nihao@,

除了使用正则表达式来选择行，我们也可以使用布尔表达式来选择行。使用方法是将布尔表达式放在代码块之前，仅当对前面的布尔表达式求值为真时，awk才执行代码块。以下示例脚本将输出bill中第四个字段等于8613902700003的所有行中的第三、四字段。如果当前行的第四个字段不等于8613902700003，awk将继续处理文件而不对当前行执行print语句：

$4 == "8613902700003" { print "OrgAddr: "$3, "\tDestAddr: "$4 }

注意，代码块前的布尔表达式必须与代码块在同一行上。

awk 提供了完整的比较运算符集合，包括==、<、>、<=、>=和!=。另外，awk还提供了~和!~ 运算符，它们分别表示匹配和不匹配。它们的用法是在运算符左边指定变量，在右边指定正则表达式。例如：

$4 ~ /8613902700003/ { print "OrgAddr: "$3, "\tDestAddr: "$4 }

awk还允许使用布尔运算符||（逻辑或）和&&（逻辑与），以便创建更复杂的布尔表达式：

( $3 == "8613902700001" ) && ( $4 == "8613902700003" ) { print }

awk的另一个优点是它有完整的数学运算符集合。除了标准的加、减、乘、除，awk还允许使用指数运算符^、模运算符%和其它许多从C语言中借入的易于使用的赋值操作符。

这些运算符包括前后加减（i++、–j）、加／减／乘／除赋值运算符（a+=3、b*=2、c/=2.2、d-=6.2）。不仅如此，还有易于使用的模／指数赋值运算符（a^=2、b%=4）。

2.4 字符串化变量

awk变量“字符串化”是指所有awk变量在内部都是按字符串形式存储的。而且只要变量包含有效数字字符串，就可以对它执行数学操作，awk会自动处理字符串到数字的转换步骤。请看以下这个示例：

BEGIN { x=“0” }

/^$/ { x=x+1 }

END { print “I found " x " blank lines. 😃” }

这个例子的功能是计算文件中空白行的数量，^$表示空行。

如果做一个小实验，就可以发现如果某个特定变量不包含有效数字，awk在对数学表达式求值时会将该变量当作数字0处理。

3 第二部分：提高

========================================================================

3.1 处理多行

在这一节里，顺带着讲一下三个特别的变量：

| Awk特殊变量 | 描述 |

| — | — |

| RS | 表示记录分隔符 |

| OFS | 表示输出字段分隔符，在两个单独的字段间插入定义的字符串 |

| ORS | 表示输出记录分隔符，在两个单独的记录间插入定义的字符串 |

第一部分我们讨论的都是一个记录占用一行的情况，如果要分析占据多行的记录，除了依靠FS，还需要设置RS（记录分隔符变量）。RS变量告诉awk当前记录什么时候结束，新记录什么时候开始。

为了便于讨论，我们依然首先在当前目录下生成一个通讯录文件address，其内容如下：

zhangsan

13712345678

zhs@hotmail.com

lisi

13012345678

ls@21cn.com

要处理这个文件，可以将每三行看作是一个独立的记录，一个记录包含三个字段。如下脚本将原记录由三行转换成一行输出：

BEGIN {

FS=“\n”

RS=“”

}

{

print $1 ", " $2 ", " $3

}

此代码将产生以下输出：

zhangsan, 13712345678, zhs@hotmail.com

lisi, 13012345678, ls@21cn.com

在上面例子中，为了在三个字段之间插入一个逗号和空格，使用了",“。这个方法虽然有用，但比较难看。其实我们还有更好的方法，那就是设置变量OFS（输出字段分隔符）。OFS缺省情况下被设置成” "（单个空格）。使用如下脚本可以达到上面例子同样的效果：

BEGIN {

FS=“\n”

RS=“”

OFS=", "

}

{

print $1, $2, $3

}

awk还有一个特殊变量ORS（输出记录分隔符）。ORS缺省情况下被设置成\n，如果我们将其设为\n\n，就可以使输出记录的间隔翻倍。例子就不举了，大家可以自己试试。个空格分隔记录（而不换行），将ORS设置成 (空格)。

需要注意的是，使用上面的方法，最多只能处理一个记录占用三行的文本，象下面一个记录占据四行的通讯录，就处理不了了（大家可以试试看）：

wangwu

13512345678

ww@163.com

wuhan, hubei

要处理这种情况，代码最好考虑每个记录的字段数量，并依次打印每个记录。以下就是修正的代码：

BEGIN {

FS=“\n”

RS=“”

ORS=“”

}

{

x=1

while ( x<NF ) {

print $x “\t”

x++

}

print $NF “\n”

}

程序输出如下：

wangwu 13512345678 ww@163.com wuhan, hubei

3.2 条件语句

awk的if语句类似于C语言的if语句，没什么好说的，举一个例子吧：

{

if ( $1 == “foo” ) {

if ( $2 == “foo” ) {

print “uno”

} else {

print “one”

}

} else if ($1 == “bar” ) {

print “two”

} else {

print “three”

}

3.3 循环语句

其实在第1节的最后(处理多行），我们已经看到了awk的while循环结构，它等同于相应的C语言while循环。awk还有"do…while"循环，它在代码块结尾处对条件求值，还是直接举例吧：

do...while示例

{

count=1

do {

print “I get printed at least once no matter what”

} while ( count != 1 )

}

for循环

也等同于C语言的for循环：

for ( x = 1; x <= 4; x++ ) {

print “iteration”,x

}

break 和 continue

此外，如同C语言一样，awk提供了break、continue来控制awk的循环结构。break语句用于跳出最深层的循环，使循环立即终止，并继续执行循环代码块后面的语句。continue语句使awk立即开始执行下一个循环迭代，而不执行代码块的其余部分。

3.4 数组

在awk中，数组下标通常从1开始，而不是0：

myarray[1]=“jim”

myarray[2]=456

awk遇到第一个赋值语句时，它将创建myarray，并将元素myarray[1]设置成"jim"。执行了第二个赋值语句后，数组就有两个元素了。Awk数组不需要连续的数字序列下标（例如，可以定义myarr[1]和myarr[1000]，但不定义其它所有元素）

awk可以使用in操作来遍历数组中的所有元素，如下所示：

for ( x in myarray ) {

print myarray[x]

}

但是这个方法有一个缺点——当awk在数组下标之间轮转时，它不会依照任何特定的顺序。那就意味着我们不能知道以上代码的输出是：

jim

456

还是

456

jim

awk数组中还可以使用字符串下标，其实，不管你使用的下标是字符串还是数字，awk在幕后还将其认为是字符串下标。举例如下：

代码一：

myarr[“1”]=“China”

print myarr[“1”]

代码二：

myarr[“1”]=“Mr. Whipple”

print myarr[1]

代码三：

myarr[“name”]=“Mr. Whipple”

print myarr[“name”]

它们都将打印 “China”！

删除数组元素使用delete，举例如下：

delete fooarray[1]

另外，如果想要查看是否存在某个特定数组元素，可以使用特殊的in布尔运算符，如下所示：

if ( 1 in fooarray ) {

print “It’s there.”

} else {

print “Can’t find it.”

}

4 第三部分：精通

========================================================================

4.1 格式化输出

虽然大多数情况下awk的print语句可以完成任务，但有时我们还需要更多。使用两个函数printf()、sprintf()，将能让输出锦上添花。printf()会将格式化字符串打印到stdout，而sprintf()则返回可以赋值给变量的格式化字符串。

从下面例子可以看到，它们几乎与C语言完全相同。

x=1

b=“foo”

printf(“%s got a %d on the last test\n”,“Jim”,83)

myout=(“%s-%d”,b,x)

print myout

此代码将打印：

Jim got a 83 on the last test

foo-1

4.2 字符串函数

既然awk把所有变量都当作字符串处理，那么字符串处理对awk就显得尤为重要。但要说明一点，awk不能象在其它语言（如 C、C++）中那样将字符串看作是字符数组。例如，如果执行以下代码：

mystring=“How are you doing today?”

print mystring[3]

将会接收到一个错误，如下所示：

awk: string.gawk:59: fatal: attempt to use scalar as array

不用担心，awk有许多字符串函数，弥补了这个缺陷。现将常用的字符串函数列举如下：

函数使用方式如：

从文件中找出长度大于 20 的行

[root@ccx ccx]# awk ‘length>20’ test.txt

good things are about to happen

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555

[root@ccx ccx]#

| 字符串函数 | 描述 |

| — | — |

| length() | 返回字符串的长度 |

| index() | 返回子字符串在另一个字符串中出现的位置 |

| tolower() | 返回字符串并且将所有字符转换成小写 |

| toupper() | 返回字符串并且将所有字符转换成大写 |

| substr() | 返回从字符串中选择的子串 |

| match() | 返回子字符串在另一个字符串中出现的位置。它与index()的区别在于它并不搜索子串，它搜索的是正则表达式。 |

| sub() | 替换匹配的第一个字符序列，并返回整个字符串 |

| substr() | 使用substr()可以从字符串中选择子串。以下是substr()的调用方法：mysub=substr(mystring,startpos,maxlen)，以下是一个示例：print substr(mystring,9,3) |

| gsub() | 替换匹配的全部字符序列，并返回整个字符串 |

| split() | 分割字符串，并将各部分放到使用整数下标的数组中 |

| length() | 返回字符串的长度，例子如：print length(mystring) |

| index() | 返回子字符串在另一个字符串中出现的位置，如果没有找到该字符串则返回0，例子如：print index(mystring,"you") |

| tolower()和toupper() | 返回字符串并且将所有字符分别转换成小写或大写。注意，tolower()和toupper()返回新的字符串，不会修改原来的字符串。例子：print tolower(mystring)，print toupper(mystring) |

| match() | match()与index()非常相似，它与index()的区别在于它并不搜索子串，它搜索的是正则表达式。match()函数将返回匹配的起始位置，如果没有找到匹配，则返回0。此外，match()还将设置两个变量，叫作RSTART和RLENGTH。RSTART包含返回值（第一个匹配的位置），RLENGTH指定它占据的字符跨度（如果没有找到匹配，则返回-1）。通过使用RSTART、RLENGTH、substr()和一个小循环，可以轻松地遍历字符串中的每个匹配。以下是一个match()调用示例：print match(mystring,/you/),RSTART, RLENGTH |

| gsub() | |

注：

sub()和gsub()是两个字符串替换函数。sub()的调用方法如下：

sub(regexp,replstring,mystring)

调用sub()时，它将在mystring中匹配regexp的第一个字符序列，并且用replstring替换该序列。gsub()与sub()的唯一的区别是sub()替换第一个regexp匹配（如果有的话），gsub()则执行全局替换，换出字符串中的所有匹配。举例如下：

sub(/o/,“O”,mystring)

print mystring

mystring=“How are you doing today?”

gsub(/o/,“O”,mystring)

print mystring

其输出结果如下：

HOw are you doing today?

HOw are yOu dOing tOday?

split()的功能是分割字符串，并将分割后的各部分放到使用整数下标的数组中。此函数有三个变量，第一个自变量为要分割的原始字符串，第二个自变量为分割后填入的数组名称，第三个变素为用于指示分割的分隔符。split()返回时，它将返回分割的字符串元素的数量。split()将分割的每一个部分赋值给下标从1开始的数组。举例如下：

numelements=split(“Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec”,mymonths,“,”)

print mymonths[1],mymonths[numelements]

其输出如下：

Jan Dec

最后需要说明一点的是，调用length()、sub()或gsub()时，可以去掉最后一个变量，这样awk将对$0（整个当前行）应用函数调用。例如要打印文件中每一行的长度，使用以下awk脚本：

{

print length()

}

实例_参考

=====================================================================

脚本执行方式

格式：awk -f name.awk test.txt

test.txt内容如下

[root@ccx ccx]# cat test.txt

this is a test

good things are about to happen

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555

[root@ccx ccx]#

awk脚本名：test.awk内容如下

[root@ccx ccx]# cat test.awk

#!/bin/awk -f

#执行前

BEGIN{

FS=“[ ,]”

}

#执行中

{

print $1 , $2

}

#执行后

END{

print “test”

}

使用空格和,为分隔符，打印1和2个结果并在脚本最后输出test，执行结果如下：

[root@ccx ccx]# awk -f test.awk test.txt

this is

good things

我感到难过不是因为你欺骗了我

test

[root@ccx ccx]#

输出文本中的1、4项

test.txt文本内容如下

[root@ccx ccx]# cat test.txt

this is a test

good things are about to happen

[root@ccx ccx]#

可以用来过滤命令内容的，如果是脚本中，则每行的1和4行内容都会被打印：awk '{print $1,$4}'

[root@ccx ccx]# awk ‘{print $1,$4}’ test.txt

this test

good about

[root@ccx ccx]#

指定分割字符

test.txt内容如下

[root@ccx ccx]# cat test.txt

this is a test

good things are about to happen

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555

[root@ccx ccx]#

使用单个","分割

注：这种情况如果一行中没有指定分割的内容，则会整行打印(如下，只有中文有,，所以只有中文的$1和$2生效了。

[root@ccx ccx]# awk -F, ‘{print $1,$2}’ test.txt

this is a test

good things are about to happen

我感到难过不是因为你欺骗了我

使用多个分隔符

先使用空格分割，然后对分割结果再使用","分割

注：使用多个分隔符需要在-F后面加上'[在这里面直接添加分隔符]'

[root@ccx ccx]# awk -F’[ ,]’ ‘{print $1,$2}’ test.txt

this is

good things

我感到难过不是因为你欺骗了我

[root@ccx ccx]#

设置变量

test.txt内容如下

[root@ccx ccx]# cat test.txt

this is a test

good things are about to happen

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555

[root@ccx ccx]#

-v是设置变量，使用的时候直接在-v后面定义变量，不需要间隔符。

注：因为没有设置分隔符，所以默认分隔符是空格。

[root@ccx ccx]# awk -va=1 ‘{print $1,$1+a}’ test.txt

this 1

good 1

_____________________________ 1

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555 1

[root@ccx ccx]#

设置变量和分隔符为,如下

注，一行中没有,的则不会匹配的（如果需要都匹配，则设置多个分隔符）。

[root@ccx ccx]# awk -va=1 -F, ‘{print $1,$1+a}’ test.txt

this is a test 1

good things are about to happen 1

_____________________________ 1

我感到难过 1

[root@ccx ccx]#

设置过滤条件

test.txt内容如下

[root@ccx ccx]# cat test.txt

this is a test

this not balabala

good things are about to happen

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555

[root@ccx ccx]#

匹配字符t

.是绝对匹配，没有匹配到的不会被打印，*即使没有匹配到的也会被打印

[root@ccx ccx]# awk ‘/t./{print}’ test.txt

this is a test

good things are about to happen

[root@ccx ccx]# awk ‘/t*/{print}’ test.txt

this is a test

good things are about to happen

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555

过滤第一列参数等于this的行

注：参数需要加上""，否则过滤不出结果

[root@ccx ccx]# awk ‘$1==“this” {print}’ test.txt

this is a test

this not balabala

[root@ccx ccx]#

过滤第一列等于this并且第二列等于is的行

使用了&&，注意：参数需要加上""，否则过滤不出结果

[root@ccx ccx]# awk ‘$1==“this” && $2==“is” {print}’ test.txt

this is a test

[root@ccx ccx]#

输出第一列包含 th，并打印第一列与第四列

注：包含内容必须放//中间，否则过滤无效。

[root@ccx ccx]# awk ‘$1 ~ /th/ {print $1,$4}’ test.txt

this test

this

[root@ccx ccx]#

输出包含 “is” 的行

~ 表示模式开始。// 中是模式。

[root@ccx ccx]# awk ‘/is/’ test.txt

this is a test

this not balabala

Awk的文本分行读取,和分行判断…

[root@ccx ccx]# more hosts

127.0.0.1 loopback localhost # loopback (lo0) name/address

172.30.126.10 IVM10

172.24.23.230 IVM230

172.24.23.80 IVM80

172.30.126.60 localhost

172.24.23.39 IVM39

172.24.23.82 IVM82

172.24.23.160 Robin_Hu_Dev

172.24.23.236 IVM236

[root@ccx ccx]# cat ./hosts | awk ‘{if($1 == ivm_ip && $2 == ivm_name) {print $0}}’ ivm_ip=172.24.23.39 ivm_name=IVM39

172.24.23.39 IVM39

[root@ccx ccx]# cat ./hosts | awk ‘{if($1 == ivm_ip || $2 == ivm_name) {print $0}}’ ivm_ip=172.24.23.39 ivm_name=IVM82

172.24.23.39 IVM39

172.24.23.82 IVM82

忽略大小写

忽略大小写格式为： BEGIN{IGNORECASE=1} /忽略大小写的字母/

test.txt内容

[root@ccx ccx]# cat test.txt

this is a test

This not balabala

good things are about to happen

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555

[root@ccx ccx]#

忽略this的大小写，默认打印全部

[root@ccx ccx]# awk 'BEGIN{IGNORECASE=1} /this/ ’ test.txt

this is a test

This not balabala

[root@ccx ccx]#

打印1和4行

[root@ccx ccx]# awk ‘BEGIN{IGNORECASE=1} /this/ {print $1,$4}’ test.txt

this test

This

[root@ccx ccx]#

模式取反

打印第一列不是th的1和4内容

[root@ccx ccx]# awk ‘$1 !~ /th/ {print $1,$4}’ test.txt

This

good about

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555

[root@ccx ccx]#

最后

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长，自己不成体系的自学效果低效漫长且无助。

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，不论你是刚入门Java开发的新手，还是希望在技术上不断提升的资深开发者，这些资料都将为你打开新的学习之门！

如果你觉得这些内容对你有帮助，需要这份全套学习资料的朋友可以戳我获取！！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！
小写格式为： BEGIN{IGNORECASE=1} /忽略大小写的字母/

test.txt内容

[root@ccx ccx]# cat test.txt

this is a test

This not balabala

good things are about to happen

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555

[root@ccx ccx]#

忽略this的大小写，默认打印全部

[root@ccx ccx]# awk 'BEGIN{IGNORECASE=1} /this/ ’ test.txt

this is a test

This not balabala

[root@ccx ccx]#

打印1和4行

[root@ccx ccx]# awk ‘BEGIN{IGNORECASE=1} /this/ {print $1,$4}’ test.txt

this test

This

[root@ccx ccx]#

模式取反

打印第一列不是th的1和4内容

[root@ccx ccx]# awk ‘$1 !~ /th/ {print $1,$4}’ test.txt

This

good about

我感到难过,不是因为你欺骗了我,而是因为我再也不能相信你了,555

[root@ccx ccx]#

最后

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长，自己不成体系的自学效果低效漫长且无助。

[外链图片转存中…(img-rDdDnigL-1715617382979)]

[外链图片转存中…(img-eMkZWJLo-1715617382980)]

[外链图片转存中…(img-2izSofKO-1715617382980)]

如果你觉得这些内容对你有帮助，需要这份全套学习资料的朋友可以戳我获取！！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

2401_84815407

关注

15
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录