AWK 输出重复的行 去掉重复的行

AWK是一个非常强大的文本处理工具。

今天尝试着去掉文件中的重复的行, 开始采用了“cat filename | sort -u" 命令, 但是这个命令有很大的缺点,改变了原来行的顺序。 用diff命令,很难查看到文件的差别。

 

偶然看到一个兄弟写的一个很简单的AWK命令,既能不改变原文本行的相对顺序,并且能够输出/去掉重复的行,而且命令非常简单。

 

awk 'a[$0]++' filename   //用于输出重复的行

awk '!a[$0]++' filename //用于去掉重复的行

 

其主要的原理,是利用AWK的数组a, 用每一行作为索引,如果行不存在 a[$0], 返回 0。 a[$0]++先返回,而后++。第二次读到相同的行,a[$0]++返回非0值。

 

值得指出的是,AWK的数组是一种关联数组,类似于Java的Map,Python的Dict。其索引可以是数字,字符串,以及数字和字符串的混合。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值