一 tr
1、tr 用来完成字符替换、删除、去重操作。 It is often called translate, since it can translate a set of characters to another set.2、tr [options] set1 set2,将 stdin 输入的字符从set1 到 set2 一一映射,输出到 stdout。
如果set1 比 set2 元素多,则 set2 以最后一个字符扩展到与 set1 一样长。反之,则忽略 set2 多余的元素。
3、tr -d '[set1]' ,使用 -d 选项(delete)来删除 set1 中的字符,set2 没有被用到。
4、tr -c [set1] [set2] ,-c 参数(complement)表明使用的是 set1 的补集
$ echo hello 1 char 2 next 4 | tr -d -c '0-9 \n'
1 2 4
5、tr -s '[set]',使用-s 选项去除 set 中重复连续的字符
$ echo "GNU is not UNIX. Recursive right ?" | tr -s ' '
GNU is not UNIX. Recursive right ?
6、可以使用不同的字符集作为set,比如:
- alnum: Alphanumeric characters
- alpha: Alphabetic characters
- cntrl: Control (non-printing) characters
- digit: Numeric characters
- graph: Graphic characters
- lower: Lower-case alphabetic characters
- print: Printable characters
- punct: Punctuation characters
- space: Whitespace characters
- upper: Upper-case characters
- xdigit: Hexadecimal characters
用法是tr [:class:] [:class:],比如tr '[:lower:]' '[:upper:]'
二 sort
1、sort 接收文件名或 stdin 作为输入,将结果写至 stdout。
$ sort file1.txt file2.txt > sorted.txt
$ sort file1.txt file2.txt -o sorted.txt
$ cat sorted_file.txt | uniq> uniq_lines.txt
2、sort 默认是按字符序排序(类似 C 中的 strcmp),使用 -n 选项来对数字排序。
可以使用 -r 选项(reverse)来逆向排序,或者 -M 选项来对月份排序。
可以使用 -c 或 -C 选项(check)来检查输入是否有序,区别是 -c 会报告第一个无序行,而 -C 不会(使用 echo $? 来判断操作是否成功,成功则返回0)。
可以使用 -m (merge)来对已有序的文件进行归并排序(更有效率)。
3、使用 -k 选项(key)来以某列为关键字排序,需要注意的是,每列都是默认以空格分隔开的,因此如果文件中每行的空格/Tab 不是很一样时,可以使用 tr 替换或去重后再排序。
使用 -k F[.C][,F[.C]] 选项来指明用从某列F(即域 field)某个字符C(charactor)到某列某字符为key。其中C默认是1,省略第二个F.C选项的话默认以第一个F.C到此域的末尾为key。
比如: -k 1.1 以第一列第一个字符到此列末尾为key; -k 1,1 以第一列第一个字符为key。
4、使用 -z 选项来使每行以 "\0"结束,与 xargs -0 搭配使用。
三 uniq
1、uniq 针对连续的行去重,从 filename / stdin 接受输入,结果输出到 stdout上。
2、可以使用 -s 选项(skip) 和 -w 选项(width) 来指定以某关键字去重:-s 指定跳过开头的多少个字符, -w 指定比较的最大字符串长度。比如:
$ cat data.txt
u:01:gnu
d:04:linux
u:01:bash
u:01:hack
$ sort data.txt | uniq -s 2 -w 2 #以数字去重
d:04:linux
u:01:bash
3、同sort一样,使用 -z 选项来使每行以 "\0"结束,与 xargs -0 搭配使用。