cut
cut是一个选取命令,就是将一段数据经过分析,取出我们想要的。一般来说,选取信息通常是针对“行”来进行分析的,并不是整篇信息分析的。
cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 File 参数,cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一。
-
主要参数
-b :以字节为单位进行分割。这些字节位置将忽略多字节字符边界,除非也指定了 -n 标志。
-c :以字符为单位进行分割。
-d :自定义分隔符,默认为空格。
-f :与-d一起使用,指定显示哪个区域。
-n :取消分割多字节字符。仅和 -b 标志一起使用。如果字符的最后一个字节落在由 -b 标志的 List 参数指示的范围之内,该字符将被写出;否则,该字符将被排除。 -
cut命令主要是接受三个定位方法:
第一,字节(bytes),用选项-b
第二,字符(characters),用选项-c
第三,域(fields),用选项-f
3.以“字节”定位
(1). 当你想提取某一文件中每一行的第3个字节,例如:
- 1
- 2
- 3
- 4
- 5
- 6
(2). 如果“字节”定位中,想提取第3,第4、第5和第8个字节,怎么办?-b支持形如3-5的写法,而且多个定位之间用逗号隔开就成了。由于空格,第5、第8字符不显示。
- 1
- 2
- 3
- 4
(3). -3表示从第一个字节到第三个字节,而3-表示从第三个字节到行尾。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
4.以“字符”为分隔符
在字母字符串中不容易区分-b和-c的区别,如下例子中:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
可以很明显的看出,-c和-b的区别。用-c则会以字符为单位,输出正常;而-b只会傻傻的以字节(8位二进制位)来计算,输出就是乱码。
当遇到多字节字符时,可以使用-n选项,-n用于告诉cut不要将多字节字符拆开。
5.“域”,对于非固定格式的信息,自行指定“分隔符”,最为明显的例子就是/etc/passwd中的“:”。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
用-d来设置间隔符为冒号,然后用-f来设置我要取的是第二个域,就能得到所需要的内容。
当然,在设定-f时,也可以使用例如n-m或者n-类似的格式。例如:
- 1
- 2
- 3
- 4
- 5
- 6
6.空格和制表符的区分
虽然有时候制表符确实很难辨认,但有一个方法可以看出一段空格到底是由若干个空格组成的还是由一个制表符组成的。sed -n l 可以直观的看出两者。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
如果使用cut,则会出现这样的结果。在tab与finish直接有个制表符tab。注意,两个单引号之间可确实要有一个空格。
- 1
- 2
- 3
- 4