在处理文本数据时,经常需要删除重复的行,本文介绍了linux系统中两种删除重复行的方法。
1. 使用vi命令
基于vi工具,先用sort进行排序,然后使用正则表达式匹配重复的行,最后删除重复的行。
:sort
:g/^\(.*\)$\n^\1$/d
解析:
g:全局匹配
^...$:匹配一行任意内容,并将匹配到的内容存放于匹配分组\1中
\n^\1$:匹配与第一行相同的内容
d:删除重复项
2. 使用linux shell命令
基于linux shell命令,先用sort进行排序,然后使用uniq命令删除重复行。
sort old_file | uniq > new_file
解析:
old_file:原始文件
new_file:去除重复行之后的文件
|:管道操作符,将上一个命令的结果当作下一个命令的输入
>:重定向符,发送上一个命令的输出到某个文件中
注意:上述两种方法都需要先进行排序,再删除重复行。