linux 文件内容去重,Linux命令根据某一列对文件内容去重

大家可能经常遇到文件内容排序去重处理的事情,使用 linux 命令可以很方便的处理,sort 命令在处理文件排序和去重中起着非常重要的左右,是文件处理的利器。

比如有以下文件内容:

pythontab.com4345            15              12121

4145            7               fdf

4245            5               dfsf

1345            76              432423

0693            2               4345

06a7            82              4e

06a9            58              e33

4345            68              343

06c1            56              453

06d7            145             45678

4345            117             21

06e3            280             76

4345            7               3434

4345            48              80

06f1            463             121

4345            3847            131

070b            1236            64

070d            3343            77

0713            104235          90

0715            6               12

0726            121             97798

想要按照第二列排序去重,怎么做呢?其实只需要 sort 命令就可以解决了sort -t $'\t' -k 2 -u pythontab.com

sort 排序命令

-t 指定分隔符为‘\t’

-k 指定第三列

-u 去重

sort的其他一些选项:

-r 降序排列

-o 把排序结果输出到源文件

sort默认是把结果输出到标准输出,所以需要用重定向才能将结果写入文件,形如

sort filename>newfile

如果将结果输出到原文件,用重定向相当于清空

-n 看为数字来比较

你有没有遇到过10比2小的情况。我反正遇到过。出现这种情况是由于排序程序将这些数字按字符来排序了,排序程序会先比较1和2,显然1小,所以就将10放在2前面喽。这也是sort的一贯作风。

我们如果想改变这种现状,就要使用-n选项,来告诉sort,“要以数值来排序”!

-f 会将小写字母都转换为大写字母来进行比较,亦即忽略大小写

-c 会检查文件是否已排好序,如果乱序,则输出第一个乱序的行的相关信息,最后返回1

-C 会检查文件是否已排好序,如果乱序,不输出内容,仅返回1

-M 会以月份来排序,比如JAN小于FEB等等

-b 会忽略每一行前面的所有空白部分,从第一个可见字符开始比较。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值