AWK是一个非常强大的文本处理工具。
今天尝试着去掉文件中的重复的行, 开始采用了“cat filename | sort -u" 命令, 但是这个命令有很大的缺点,改变了原来行的顺序。 用diff命令,很难查看到文件的差别。
偶然看到一个兄弟写的一个很简单的AWK命令,既能不改变原文本行的相对顺序,并且能够输出/去掉重复的行,而且命令非常简单。
awk 'a[$0]++' filename //用于输出重复的行
awk '!a[$0]++' filename //用于去掉重复的行
其主要的原理,是利用AWK的数组a, 用每一行作为索引,如果行不存在 a[$0], 返回 0。 a[$0]++先返回,而后++。第二次读到相同的行,a[$0]++返回非0值。
值得指出的是,AWK的数组是一种关联数组,类似于Java的Map,Python的Dict。其索引可以是数字,字符串,以及数字和字符串的混合。