sed 与 awk 处理重复行

最新推荐文章于 2022-06-29 15:01:36 发布

longyu_wlz

最新推荐文章于 2022-06-29 15:01:36 发布

阅读量1.5k

点赞数

分类专栏： linux command 文章标签：合并重复行

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Longyu_wlz/article/details/84206368

版权

linux command 专栏收录该内容

40 篇文章 0 订阅

订阅专栏

sed 与 awk 处理连续重复行

之前在使用 sed 修改文件的时候，在指定 -i 参数的时候忘记了删除调试时制定的 p 命令，造成了连续重复行的出，便又想着怎样去删除这个重复行，再执行一个 sed 命令就可以了，不过这里用到了 sed 的高级功能，使用 n 命令。

data 文件的内容为：
aa
bb
cc

现在我需要将 aa 替换为 test，我执行了如下命令：

		sed -n 's/aa/test/p' data

我使用 -n 选项告诉 sed 仅仅输出处理的行，这在测试中非常有用，尤其当文件内容特别多的时候。然后我确认无误，我直接将 -n 换为 -i，然后我查看 data 文件的内容得到了如下结果：
test
test
bb
cc

看到文件的内容之后我感到很奇怪，为什么多了一行呢？然后我检查 sed 命令，立刻发现，我忘记了删除 p 命令，导致多了一次输出，就多了重复行。然后我使用如下命令删除重复行：

		sed '/test/n
		{/test/d}' data

上述命令的意思为匹配包含 test 内容的那一行，然后打印该行并读入新行替换模式空间的内
容，对读入的新行执行 /test/d 操作，即可完成两个连续重复行的删除。

如果重复了不只两次，那么你可以使用如下命令来删除连续多次重复行：

		sed '/test/{N
		/\ntest/D}' data

这里使用了大写的 N 与 D，其含义与小写的 n 与 d 是不同的。更详细的解释详见《sed 与 awk》。

使用 awk 中的关联数组可以更简单的解决这个问题。不仅如此而且能够处理重复行不连续的情况。
命令如下：

		    awk '{data[$0]++; if (data[$0] == 1) print $0} ' data　> data-new

以整行的内容作为下标，相同的行仅仅增加数组每个项的值，重复的行仅仅输出一次，最后
将结果重定向到 data-new 中就完成了任务。

测试使用的 data 文件内容如下：
test
test
test
bb
cc
bb
cc
test

生成的 data-new 文件内容如下：

test
bb
cc

参考书籍 :《sed 与 awk》。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。