sed 与 awk 处理重复行

sed 与 awk 处理连续重复行

之前在使用 sed 修改文件的时候,在指定 -i 参数的时候忘记了删除调试时制定的 p 命令,造成了连续重复行的出,便又想着怎样去删除这个重复行,再执行一个 sed 命令就可以了,不过这里用到了 sed 的高级功能,使用 n 命令。

data 文件的内容为:
aa
bb
cc

现在我需要将 aa 替换为 test,我执行了如下命令:

		sed -n 's/aa/test/p' data

我使用 -n 选项告诉 sed 仅仅输出处理的行,这在测试中非常有用,尤其当文件内容特别多的时候。然后我确认无误,我直接将 -n 换为 -i,然后我查看 data 文件的内容得到了如下结果:
test
test
bb
cc

看到文件的内容之后我感到很奇怪,为什么多了一行呢?然后我检查 sed 命令,立刻发现,我忘记了删除 p 命令,导致多了一次输出,就多了重复行。然后我使用如下命令删除重复行:

		sed '/test/n
		{/test/d}' data

上述命令的意思为匹配包含 test 内容的那一行,然后打印该行并读入新行替换模式空间的内
容,对读入的新行执行 /test/d 操作,即可完成两个连续重复行的删除。

如果重复了不只两次,那么你可以使用如下命令来删除连续多次重复行:

		sed '/test/{N
		/\ntest/D}' data

这里使用了大写的 N 与 D,其含义与小写的 n 与 d 是不同的。更详细的解释详见《sed 与 awk》。

使用 awk 中的关联数组可以更简单的解决这个问题。不仅如此而且能够处理重复行不连续的情况。
命令如下:

		    awk '{data[$0]++; if (data[$0] == 1) print $0} ' data > data-new

以整行的内容作为下标,相同的行仅仅增加数组每个项的值,重复的行仅仅输出一次,最后
将结果重定向到 data-new 中就完成了任务。

测试使用的 data 文件内容如下:
test
test
test
bb
cc
bb
cc
test

生成的 data-new 文件内容如下:

test
bb
cc

参考书籍 :《sed 与 awk》。

Re:《文本处理 awk sed grep ”三剑客”》 ============================================================== 本人在教学和实战过程中发现,即便是有一定运维经验的人,可能已经能够搭建一定复杂度的Linux架构,但是在来来回回的具体操作中,还是体现出CLI(命令界面)功底不够扎实,甚至操作的非常‘拙’、处处露‘怯’。 对一个士兵来说,枪就是他的武器,对于一个程序员来说,各种library(工具库)就是他的武器;而对于Linux运维人员来说,无疑命令工具CLI(命令界面)就是他们的武器;高手和小白之间的差距往往就体现在对于这些“武器”的掌握和熟练程度上。有时候一个参数就能够解决的事情,小白们可能要写一个复杂的Shell脚本才能搞定,这就是对CLI(命令界面)没有理解参悟透彻导致。 研磨每一个命令就是擦拭手中的作战武器,平时不保养不理解,等到作战的时候,一定不能够将手中的武器发挥到极致,所以我们要平心、静气和专注,甘坐冷板凳一段时间,才能练就一身非凡的内功! 本教程从实战出发,结合当下流或最新的Linux(v6/7/8 版本)同时演示,将命令结合到解决企业实战问题中来,体现出教学注重实战的务实精神,希望从事或未来从事运维的同学,能够认真仔细的学完Linux核心命令的整套课程。 本课程系列将逐步推出,看看我教学的进度和您学习的步伐,孰占鳌头! 注:关于教学环境搭建,可以参考本人其它课程系列,本教学中就不再赘述! 《参透 VMware 桌面级虚拟化》 《在虚拟机中安装模版机(包括应用软件等)》 《SecureCRT 连接 GNS3/Linux 的安全精密工具》---------------------------------------         
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值