linux下统计重复行出现的次数|花式排序|去重,awk|sort|uniq|cut

最新推荐文章于 2024-08-21 15:23:24 发布

cy413026

最新推荐文章于 2024-08-21 15:23:24 发布

阅读量2.3w

点赞数 3

分类专栏： vim/gvim配置及操作&linux命令

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cy413026/article/details/91490714

版权

vim/gvim配置及操作&linux命令专栏收录该内容

28 篇文章 9 订阅

订阅专栏

1.方法1 使用awk命令统计重复

awk '{a[$0]++}END{for(i in a){print i,a[i] | "sort -r -k 2"}}' testfile

结果如下：

其中a[$0]大概表示将一整行写入数组a，如果是a[$2]则表示将每一行的第二个元素‘memlib’写入数组a，默认以空格作为分割一行的元素。可以用 -F指定分割符如下：

awk -F：'{a[$2]++}END{for(i in a){print i,a[i] | "sort -r -k 2"}}' testfile

2.方法2 使用sort|uniq|cut

以下操作不会写入源文件，只会打印到terminal，可以加 | tee xxx.log

(a).排序

$ sort test.txt

(b).去掉相邻的重复行

$ sort test.txt | uniq

(c).去重并统计重复次数

$ sort test.txt | uniq -c

效果如下：

(d).对文本按重复次数进行排序

sort -n可以识别每行开头的数字，并按其大小对文本行进行排序。默认是按升序排列，如果想要按降序要加-r选项(sort -rn)。

$ sort test.txt | uniq -c | sort -rn

(e).删除每行前面的重复次数

cut命令可以按列操作文本行。可以看出前面的重复次数占8个字符，因此，可以用命令cut -c 9- 取出每行第9个及其以后的字符。

$ sort test.txt | uniq -c | sort -rn | cut -c 9-

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。