sed 与 awk 处理连续重复行
之前在使用 sed 修改文件的时候,在指定 -i 参数的时候忘记了删除调试时制定的 p 命令,造成了连续重复行的出,便又想着怎样去删除这个重复行,再执行一个 sed 命令就可以了,不过这里用到了 sed 的高级功能,使用 n 命令。
data 文件的内容为:
aa
bb
cc
现在我需要将 aa 替换为 test,我执行了如下命令:
sed -n 's/aa/test/p' data
我使用 -n 选项告诉 sed 仅仅输出处理的行,这在测试中非常有用,尤其当文件内容特别多的时候。然后我确认无误,我直接将 -n 换为 -i,然后我查看 data 文件的内容得到了如下结果:
test
test
bb
cc
看到文件的内容之后我感到很奇怪,为什么多了一行呢?然后我检查 sed 命令,立刻发现,我忘记了删除 p 命令,导致多了一次输出,就多了重复行。然后我使用如下命令删除重复行:
sed '/test/n
{/test/d}' data
上述命令的意思为匹配包含 test 内容的那一行,然后打印该行并读入新行替换模式空间的内
容,对读入的新行执行 /test/d 操作,即可完成两个连续重复行的删除。
如果重复了不只两次,那么你可以使用如下命令来删除连续多次重复行:
sed '/test/{N
/\ntest/D}' data
这里使用了大写的 N 与 D,其含义与小写的 n 与 d 是不同的。更详细的解释详见《sed 与 awk》。
使用 awk 中的关联数组可以更简单的解决这个问题。不仅如此而且能够处理重复行不连续的情况。
命令如下:
awk '{data[$0]++; if (data[$0] == 1) print $0} ' data > data-new
以整行的内容作为下标,相同的行仅仅增加数组每个项的值,重复的行仅仅输出一次,最后
将结果重定向到 data-new 中就完成了任务。
测试使用的 data 文件内容如下:
test
test
test
bb
cc
bb
cc
test
生成的 data-new 文件内容如下:
test
bb
cc
参考书籍 :《sed 与 awk》。