awk数组在处理文本的时候非常有用,数组的形式也是:数组名[下标],比如arr[a],arr[b]。注意,awk数组的下标不仅仅是数字,可以是很多字符。awk数组遍历的时候通常使用 for i in arr,i就是arr的下标。
案例:测试文本如下,将第一列作为唯一标识对第二列进行累加,效果为a 3,b7。
[root@172-0-10-222 myscripts]# cat testfile
a 1
a 2
b 3
b 4
思路:可以将a、b作为awk数组的下标创建一个数组,即arr[a]和arr[b],然后将下标a和b对应的第二列的数字累加到arr[a]和arr[b]上,最后得到的结果就是以a和b为索引,第二列对应的值相加的结果。
[root@172-0-10-222 myscripts]# cat testfile | awk '{arr[$1]+=$2}END{for(i in arr){print i,arr[i]}}'
a 3
b 7
分析:{arr[$1]+=$2}执行完后,arr[a]=3,arr[b]=7。然后遍历该数组,for(i in arr)中,i分别为a和b,arr[a]和arr[b]分别为3和7。
补充:awk数组的遍历还可以使用for(i=1;i<=NR;i++)的方式来处理与行号有关的数组arr[NR]。比如,奇数行偶数行之类的。