常用文本分析命令（cut、awk、sort、uniq）

最新推荐文章于 2024-09-13 21:39:38 发布

weixin_30698527

最新推荐文章于 2024-09-13 21:39:38 发布

阅读量89

点赞数

文章标签： awk 网络操作系统

原文链接：http://www.cnblogs.com/litton/archive/2013/02/17/2914463.html

版权

一、cut

　　cut是一个选取命令，就是将一段数据经过分析，取出我们想要的。一般来说，选取信息通常是针对“行”来进行分析的，并不是整篇信息分析的。

（1）其语法格式为：
　　cut [-bn] [file] 或 cut [-c] [file] 或 cut [-df] [file]

使用说明
cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。
如果不指定 File 参数，cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一。

主要参数
-b ：以字节为单位进行分割。这些字节位置将忽略多字节字符边界，除非也指定了 -n 标志。
-c ：以字符为单位进行分割。
-d ：自定义分隔符，默认为制表符。
-f ：与-d一起使用，指定显示哪个区域。
-n ：取消分割多字节字符。仅和 -b 标志一起使用。如果字符的最后一个字节落在由 -b 标志的 List 参数指示的<br />范围之内，该字符将被写出；否则，该字符将被排除。

（2）cut一般以什么为依据呢? 也就是说，我怎么告诉cut我想定位到的剪切内容呢?

cut命令主要是接受三个定位方法：

第一，字节（bytes），用选项-b

第二，字符（characters），用选项-c

第三，域（fields），用选项-f

例子：

less access.log |cut -b 3-6,8 截取每行的第3到6 和第8个字节

less access.log |cut -c 3-6,8 截取每行的第3到6 和第8个字符

less access.log |cut -d : -f 1,3-5 -d表示以冒号分隔，-f表示取第一、第三至第五域

二 awk

下面是最简单最常用的awk示例，其输出第1列和第4例，

其中单引号中的被大括号括着的就是awk的语句，注意，其只能被单引号包含。
其中的$1..$n表示第几例。注：$0表示整个行。

$ awk '{print $1, $4}' netstat.txt
Proto Local-Address
tcp 0.0.0.0:3306
tcp 0.0.0.0:80
tcp 127.0.0.1:9000
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp  tianya.cn:80
tcp :::22

我们再来看看如何过滤记录（下面过滤条件为：第三列的值为0 && 第6列的值为LISTEN）

$ awk '$3==0 && $6=="LISTEN" ' netstat.txt
tcp        0      0 0.0.0.0:3306               0.0.0.0:*              LISTEN
tcp        0      0 0.0.0.0:80                 0.0.0.0:*              LISTEN
tcp        0      0 127.0.0.1:9000             0.0.0.0:*              LISTEN
tcp        0      0 :::22                      :::*                   LISTEN

awk的一些内建变量：

$0	当前记录（这个变量中存放着整个行的内容）
$1~$n	当前记录的第n个字段，字段间由FS分隔
FS	输入字段分隔符默认是空格或Tab
NF	当前记录中的字段个数，就是有多少列
NR	已经读出的记录数，就是行号，从1开始，如果有多个文件话，这个值也是不断累加中。
FNR	当前记录数，与NR不同的是，这个值会是各个文件自己的行号
RS	输入的记录分隔符，默认为换行符
OFS	输出字段分隔符，默认也是空格
ORS	输出的记录分隔符，默认为换行符
FILENAME	当前输入文件的名字

指定分隔符

$ awk  'FS=":" {print $1,$3,$6}' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin 1 /bin
daemon 2 /sbin
adm 3 /var/adm
lp 4 /var/spool/lpd
sync 5 /sbin
shutdown 6 /sbin
halt 7 /sbin

三、sort

sort将文件的每一行作为一个单位，相互比较，比较原则是从首字符向后，依次按ASCII码值进行比较，最后将他们按升序输出。

$ cat seq.txt
banana
apple
pear
orange

$ sort seq.txt
apple
banana
orange
pear
pear

sort的-u选项

它的作用很简单，就是在输出行中去除重复行。

$ sort -u seq.txt
apple
banana
orange
pear

sort的-r选项

sort默认的排序方式是升序，如果想改成降序，就加个-r就搞定了。

sort的-n选项

以数值来排序排序程序将这些数字按字符来排序了，排序程序会先比较1和2，显然1小，所以就将10放在2前面

四、uniq

Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。

uniq [选项] 文件

说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。

该命令各选项含义如下：、

– c 显示输出中，在每行行首加上本行在文件中出现的次数。它可取代- u和- d选项。

– d 只显示重复行。

– u 只显示文件中不重复的各行。

– n 前n个字段与每个字段前的空白一起被忽略。一个字段是一个非空格、非制表符的字符串，彼此由制表符和空格隔开(字段从0开始编号)。

+n 前n个字符被忽略，之前的字符被跳过(字符从0开始编号)。

– f n 与- n相同，这里n是字段数。

– s n 与+n相同，这里n是字符数。

转载于:https://www.cnblogs.com/litton/archive/2013/02/17/2914463.html

weixin_30698527

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫