linux 排序去重复,如何用grep、sort、sed、uniq等linux工具彻底清除重复行？

最新推荐文章于 2023-07-05 14:29:51 发布

weixin_39538962

最新推荐文章于 2023-07-05 14:29:51 发布

阅读量777

点赞数

文章标签： linux 排序去重复

如何用grep、sort、sed、uniq等linux工具彻底清除重复行？

这个问题真的很难写，因为我看不出任何东西能赋予它意义。但这个例子显然是直截了当的。如果我有这样的文件：1

2

2

3

4

在解析文件之后，删除重复的行，如下所示：

^{pr2}$

我知道这是我写的一个python脚本。创建一个名为clean_duplicates.py的文件，并将其运行为：import sys

#

# To run it use:

# python clean_duplicates.py < input.txt > clean.txt

#

def main():

lines = sys.stdin.readlines()

# print( lines )

clean_duplicates( lines )

#

# It does only removes adjacent duplicated lines, so your need to sort them

# with sensitive case before run it.

#

def clean_duplicates( lines ):

lastLine = lines[ 0 ]

nextLine = None

currentLine = None

linesCount = len( lines )

# If it is a one lined file, to print it and stop the algorithm

if linesCount == 1:

sys.stdout.write( lines[ linesCount - 1 ] )

sys.exit()

# To print the first line

if linesCount > 1 and lines[ 0 ] != lines[ 1 ]:

sys.stdout.write( lines[ 0 ] )

# To print the middle lines, range( 0, 2 ) create the list [0, 1]

for index in range( 1, linesCount - 1 ):

currentLine = lines[ index ]

nextLine = lines[ index + 1 ]

if currentLine == lastLine:

continue

lastLine = lines[ index ]

if currentLine == nextLine:

continue

sys.stdout.write( currentLine )

# To print the last line

if linesCount > 2 and lines[ linesCount - 2 ] != lines[ linesCount - 1 ]:

sys.stdout.write( lines[ linesCount - 1 ] )

if __name__ == "__main__":

main()

虽然，在搜索重复行时，删除行似乎更容易使用grep、sort、sed、uniq等工具：

weixin_39538962

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。