昨天晚上遇到一个问题,需要将数据指定列在不打乱顺序的前提下删除重复元素,所以搜索到了这个命令
awk '!a[$0]++' file
但是我心里面一直很痒痒的,就是很想知道为什么他能够这么做。
首先看的书籍《Linux 命令行与shell脚本编程大全》第三版,找到数组的定义,其实这也是我理解这个命令至今都无法明白的问题,但是其他的我都基本搞清楚了。
首先我们观察命令 awk ‘!a[$0]++’ file
有以下元素
a
[$0]
!
++
其中! 和 ++ 涉及到运算符优先的问题,
查阅资料知道++运算级别高于 !
接下来问题就是 假设 a = a[$0]
如果a = 1,
a++, 与++a是不一样的结果。
a++ 代表先赋值后运算,++a是先自增再赋值
最后a[$0]的问题我没有完全弄明白。
假设我的文件 file
cat file
111
222
111
222
# 执行命令
awk '{print a[$0]++,a[$0]}'
# 结果
0 1
0 1
1 2
1 2
这里我理解为 一开始 A = a[$0] = a[111] = 0
因为我一开始的数组里面没有 111,所以我的key[111] = value 0,但是
我随后进行了自增 A = a+1 = 1 ,那么我之后再遇到 key[111] ,A=1了。
这样!A = 0. 如果这个时候执行 awk ‘0’ file 以及 awk ‘1’
file,我理解为一种条件判断,如果真,那么 执行默认打印操作 print $0,
否则 什么都不打印。
这样就很清楚了,凡是遇到指定列的元素,如果不是第一个,只要 A>=1,那么 !A = 0,awk 既然是按照行处理的文本,那么 awk 就不会再次打印,只会打印自己第一次遇到的文件,即是文件指定列的第一个不重复元素。