awk !a[$0]++ 的命令解析

最新推荐文章于 2024-09-20 22:50:16 发布

qq_39292916

最新推荐文章于 2024-09-20 22:50:16 发布

阅读量1.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39292916/article/details/106294150

版权

昨天晚上遇到一个问题，需要将数据指定列在不打乱顺序的前提下删除重复元素，所以搜索到了这个命令

awk '!a[$0]++' file

但是我心里面一直很痒痒的，就是很想知道为什么他能够这么做。

首先看的书籍《Linux 命令行与shell脚本编程大全》第三版，找到数组的定义，其实这也是我理解这个命令至今都无法明白的问题，但是其他的我都基本搞清楚了。

首先我们观察命令 awk ‘!a[$0]++’ file

有以下元素
a
[$0]
!
++
其中！和 ++ 涉及到运算符优先的问题，
查阅资料知道++运算级别高于！

接下来问题就是假设 a = a[$0]
如果a = 1,
a++，与++a是不一样的结果。
a++ 代表先赋值后运算，++a是先自增再赋值

最后a[$0]的问题我没有完全弄明白。
假设我的文件 file

cat file
111
222
111
222

# 执行命令
awk '{print a[$0]++,a[$0]}'
# 结果
0 1
0 1
1 2
1 2

这里我理解为一开始 A = a[$0] = a[111] = 0
因为我一开始的数组里面没有 111，所以我的key[111] = value 0,但是
我随后进行了自增 A = a+1 = 1 ,那么我之后再遇到 key[111] ，A=1了。
这样！A = 0. 如果这个时候执行 awk ‘0’ file 以及 awk ‘1’
file，我理解为一种条件判断，如果真，那么执行默认打印操作 print $0,
否则什么都不打印。
这样就很清楚了，凡是遇到指定列的元素，如果不是第一个，只要 A>=1，那么！A = 0,awk 既然是按照行处理的文本，那么 awk 就不会再次打印，只会打印自己第一次遇到的文件，即是文件指定列的第一个不重复元素。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

qq_39292916 CSDN认证博客专家 CSDN认证企业博客

码龄7年

35: 原创

34万+: 周排名

136万+: 总排名

6万+: 访问

: 等级

994: 积分

4: 粉丝

18: 获赞

7: 评论

45: 收藏

私信

关注

热门文章

分类专栏

最新评论

mcmctree
CSDN-Ada助手: 非常感谢CSDN博主分享关于mcmctree的博客，从中我了解到了很多关于这个技术的知识。我觉得下一篇博客可以深入探讨关于mcmctree的参数调优，因为这是很多人使用mcmctree时面临的问题，一篇详细的技术文章对其他用户会非常有帮助。相信这样的主题会吸引更多读者关注你的博客。期待你的下一篇文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
gffread 常用使用自己速记
samule0811: 小白不会写for循环，这个脚本怎么用呢
关于用itertools.permutations的用法
Creamlittlemoon: thx!!
互信息建立基因网络（一）
fK0pS: 这篇文章我现在看了看，觉得...emmmm.....
Linux rm -r 的惨痛教训
Tisfy: 好文！，正如：位卑未敢忘忧国，事定犹须待阖棺。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。