linux 下的文本处理——除去重复行uniq命令

最新推荐文章于 2022-06-24 17:48:43 发布

谁不小心的

最新推荐文章于 2022-06-24 17:48:43 发布

阅读量3.7k

点赞数

分类专栏： linux基本命令文本处理 linux系统使用文章标签： uniq 除去重复行 linux基本命令

linux系统使用同时被 3 个专栏收录

39 篇文章 2 订阅

订阅专栏

linux基本命令

35 篇文章 0 订阅

订阅专栏

文本处理

6 篇文章 0 订阅

订阅专栏

原文地址：http://blog.51yip.com/shell/1022.html

一，uniq干什么用的

文本中的重复行，基本上不是我们所要的，所以就要去除掉。linux下有其他命令可以去除重复行，但是我觉得uniq还是比较方便的一个。使用uniq的时候要注意以下二点

1，对文本操作时，它一般会和sort命令进行组合使用，因为uniq 不会检查重复的行，除非它们是相邻的行。如果您想先对输入排序，使用sort -u。

2，对文本操作时，若域中为先空字符(通常包括空格以及制表符)，然后非空字符，域中字符前的空字符将被跳过

二，uniq参数说明

[zhangy@BlackGhost ~]$ uniq --help

用法：uniq [选项]... [文件]
从输入文件或者标准输入中筛选相邻的匹配行并写入到输出文件或标准输出。
不附加任何选项时匹配行将在首次出现处被合并。
长选项必须使用的参数对于短选项时也是必需使用的。
-c, --count //在每行前加上表示相应行目出现次数的前缀编号
-d, --repeated //只输出重复的行
-D, --all-repeated //只输出重复的行，不过有几行输出几行
-f, --skip-fields=N //-f 忽略的段数，-f 1 忽略第一段
-i, --ignore-case //不区分大小写
-s, --skip-chars=N //根-f有点像，不过-s是忽略，后面多少个字符 -s 5就忽略后面5个字符
-u, --unique //去除重复的后，全部显示出来，根mysql的distinct功能上有点像
-z, --zero-terminated end lines with 0 byte, not newline
-w, --check-chars=N //对每行第N 个字符以后的内容不作对照
--help //显示此帮助信息并退出
--version //显示版本信息并退出

其中-z不知道有什么用

三，测试文本文件uniqtest

 
  this is a test  
 this is a test  
 this is a test  
 i am tank  
 i love tank  
 i love tank  
 this is a test  
 whom have a try  
 WhoM have a try  
 you  have a try  
 i want to abroad  
 those are good men  
 we are good men