在进行文本处理的时候,会经常遇到要删除重复行的情况。有三种常见方法:
第一,用sort+uniq,注意,单纯uniq是不行的,
sort -k2n file | uniq
这里我做了个简单的测试,当file中的重复行不再一起的时候,uniq将服务删除所有的重复行。经过排序后,所有相同的行都在相邻,因此unqi可以正常删除重复行。
第一,用sort+uniq,注意,单纯uniq是不行的,
sort -k2n file | uniq
这里我做了个简单的测试,当file中的重复行不再一起的时候,uniq将服务删除所有的重复行。经过排序后,所有相同的行都在相邻,因此unqi可以正常删除重复行。
第二,用sort+awk命令,注意,单纯awk同样不行,原因同上。
sort -k2n file | awk '{if ($0!=line) print;line=$0}'
如果全部用awk来解决,也可以不需要sort命令先排序拉。
第三,用sort+sed命令,同样需要sort命令先排序。
sort -k2n file | sed '$!N; /^/(.*/)/n/1$/!P; D'
解释一下:将当前行及下一行放入模式空间,直到遇到$, " /^/(.*/)/n/1 "该条件可以确定模式空间中的两行
是否为相同的行.