Linux Sort & Uniq

最新推荐文章于 2024-06-10 21:25:11 发布

chncaesar

最新推荐文章于 2024-06-10 21:25:11 发布

阅读量731

点赞数

分类专栏： Linux 文章标签： sort uniq

本文链接：https://blog.csdn.net/chncaesar/article/details/17753525

版权

Linux 专栏收录该内容

37 篇文章 0 订阅

订阅专栏

这两个命令的含义不解释了，直接上例子。

uniq篇

[oracle@odilab ~]$ sort 1.txt | uniq
aa
bb
cc

uniq命令的输入必须是有序的。

[oracle@odilab ~]$ sort 1.txt | uniq -c
      2 aa
      2 bb
      1 cc

输出重复次数

[oracle@odilab ~]$ sort 1.txt | uniq -d
aa
bb

只输出有重复的记录

[oracle@odilab ~]$ sort 1.txt | uniq -u
cc

只输出不重复的记录

sort篇

[oracle@odilab ~]$ sort 1.txt
1
10
2
[oracle@odilab ~]$ sort -n 1.txt
1
2
10

-n: 按照字符串的数值大小排序。默认从小到大排序。

[oracle@odilab ~]$ cat 1.txt
z
a
ab
c
a
[oracle@odilab ~]$ sort -r 1.txt
z
c
ab
a
a
[oracle@odilab ~]$ sort -ru 1.txt
z
c
ab
a

-r：逆序排序 -u : distinct操作。可以看到有一个a消失了。

[oracle@odilab ~]$ sort 1.txt
1
a
a
ab
c
C
z

可以看到顺序为：数字<字母，同字符小写字母<同字符大写字母<靠后字母。

多个域的文件排序，sort默认以第一个域为准排序。

[oracle@odilab ~]$ sort -k2 1.txt
z 1
a a
a a
ab ab
c c
C C
1 Z

-k: 指定按照第几个域排序

[oracle@odilab ~]$ sort -t"," -k2 1.txt
z,1
a,a
a,a
ab,ab
c,c
C,C
1,Z

-t 指定域分隔符

输出到文件

[oracle@odilab ~]$ sort -k2 -o2.txt 1.txt
[oracle@odilab ~]$ cat 2.txt
z 1
a a
a a
ab ab
c c
C C
1 Z
[oracle@odilab ~]$ sort -k2 1.txt > 2.txt
[oracle@odilab ~]$ cat 2.txt
z 1
a a
a a
ab ab
c c
C C
1 Z

-o: 指定输出文件。也可以用>重定向符实现同意功能。

Sort命令采用的算法：External R-Way merge sort （根据stakoverflow.com）。将数据分区，对每个分区排序，最后将每个分区合并得到结果。性能比较稳定。是divide-and-conquer思想的提现。

-S:指定内存缓冲区。缓冲区越大，容纳的分区越多。

[oracle@odilab ~]-rw-r--r--   1 oracle oinstall 4.7M Jan  9 10:19 2.txt
[oracle@odilab ~]$ wc -l 2.txt
1000001 2.txt
[oracle@odilab ~]$ head -2 2.txt
560
525
$ date
Thu Jan  9 10:20:43 EST 2014
[oracle@odilab ~]$ sort -S64K 2.txt > null
[oracle@odilab ~]$ date
Thu Jan  9 10:21:03 EST 2014
[oracle@odilab ~]$ sort -S2M 2.txt > null
[oracle@odilab ~]$ date
Thu Jan  9 10:21:16 EST 2014

date命令是手敲的，不能精确反应sort命令的执行时间。但是能体会到缓冲区2M时，快很多。

chncaesar

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Linux Sort & Uniq

这两个命令的含义不解释了，直接上例子。[oracle@odilab ~]$ cat 1.txtaabbaabbcc[oracle@odilab ~]$ vi 1.txt[oracle@odilab ~]$ sort 1.txt | uniqaabbccuniq命令的输入必须是有序的。[oracle@odilab ~]$ sort 1.txt | uniq -c
复制链接

扫一扫

专栏目录