11、Linux文本处理三剑客之awk命令(1)

最新推荐文章于 2023-03-03 16:43:31 发布

谁是谁的小确幸

最新推荐文章于 2023-03-03 16:43:31 发布

阅读量524

点赞数

分类专栏： Linux 文章标签： linux awk命令

本文链接：https://blog.csdn.net/qq_29119581/article/details/125732051

版权

Linux 专栏收录该内容

16 篇文章 5 订阅

订阅专栏

本文详细介绍了awk命令的使用，包括基本格式、默认分隔符、指定分隔符、内置变量、函数、流程控制语句以及正则表达式的应用。awk以其强大的数据分析能力，常用于Linux环境中的文本处理，如字段提取、数据转换和格式化输出。通过实例展示了如何利用awk进行列选择、字符串操作和条件判断，是Linux系统管理员和开发者的重要工具。

摘要由CSDN通过智能技术生成

awk 是一个强大好用的数据处理工具，对于 Linux 文本处理三剑客，grep 命令倾向于查找，sed 命令倾向于编辑更新，而 awk 命令则倾向于对数据分析并生成报告。本篇将重点梳理 awk 命令及常见的使用场景。

1、awk 基本格式

awk 命令可以直接处理文件，也可以作为管道命令读取前一个命令的标准输出，基本格式如下：

awk [参数选项] '匹配的内容' [文件名]

参数选项有：

Usage: awk [POSIX or GNU style options] -f progfile [--] file ...
Usage: awk [POSIX or GNU style options] [--] 'program' file ...
POSIX options:          GNU long options: (standard)
        -f progfile             --file=progfile
        -F fs                   --field-separator=fs
        -v var=val              --assign=var=val
Short options:          GNU long options: (extensions)
        -b                      --characters-as-bytes
        -c                      --traditional
        -C                      --copyright
        -d[file]                --dump-variables[=file]
        -e 'program-text'       --source='program-text'
        -E file                 --exec=file
        -g                      --gen-pot
        -h                      --help
        -L [fatal]              --lint[=fatal]
        -n                      --non-decimal-data
        -N                      --use-lc-numeric
        -O                      --optimize
        -p[file]                --profile[=file]
        -P                      --posix
        -r                      --re-interval
        -S                      --sandbox
        -t                      --lint-old
        -V                      --version

2、默认分隔符

最常用参数为 -F，而 awk 命令使用空格、tab 制表符作为缺省的字段分隔符。因此，如果处理的文本中的字段间有空格、tab 制表符的话，则不需要指定 -F 选项，举个入门的小例子：

$ echo "today is hot" |awk '{print $1}'
today

$ echo "today is hot" |awk '{print $2}'
is

$ echo "today is hot" |awk '{print $3}'
hot

$ echo "today is hot" |awk '{print $1,$3}'
today hot

$ echo "today is hot" |awk '{print $0}'
today is hot

从上面可以看到，awk 是以行为一次处理的单元，而以字段为最小的处理单元，使用 $+数字表示数据列，$1表示第一列，$2表示第二列，依次类推，$n表示第n列，当 n=0，即 $0 表示所有列。

当然，awk 也支持格式化打印输出，例如：

$ echo "today is hot" |awk '{print $1,$3}'
today hot

$ echo "today is hot" |awk '{printf "%-10s %-15s\n",$1,$3}' 
today      hot

3、指定分隔符

如果字段间隔符不是空格、tab 制表符的话，使用 -F "指定字符串" 分隔，演示如下：

# 以,作为分隔符
$ echo "today,is hot,is irritability" |awk -F "," '{print $2}'
is hot

# 以is作为分隔符
$ echo "today,is hot,is irritability" |awk -F "is" '{print $1}'
today,
$ echo "today,is hot,is irritability" |awk -F "is" '{print $2}'
 hot,
$ echo "today,is hot,is irritability" |awk -F "is" '{print $3}'
 irritability

当然，指定字符串is 也可以不使用双引号：

$ echo "today,is hot,is irritability" |awk -F is '{print $2}'
 hot,

如果指定字符有多个的话，先以第一个分隔符为准，然后再按顺序以其他的分隔字符分隔，比如：

$ echo "today,is hot,is irritability" |awk -F "[ ,]" '{print $3,$5}'
hot irritability

4、使用内置变量

awk 支持以下几个常用的内置变量：

FS：设置输入字段分隔符，等价于-F参数选项；
OFS：设置输出字段分隔符；
NR：表示已读的记录数（行号）；
NF：表示浏览记录的字段个数（列数）；

举例1：字符串转数组

$ echo "1555650,1505765,1893873" |awk 'BEGIN{FS=",";OFS=" "} {print $1,$2,$3}' 
1555650 1505765 1893873

字符串转数组，就是把逗号替换成空格而已。请注意，BEGIN 语句表示在所有文本处理动作执行之前被执行（前置处理），END 语句在所有文本处理动作执行之后被执行（后置处理）；

举例2：输出文件的所有内容，并显示行号和列数

$ awk -F : '{print NR "   " NF "   " $0}' /etc/passwd
1   7   root:x:0:0:root:/root:/bin/bash
2   7   bin:x:1:1:bin:/bin:/sbin/nologin
3   7   daemon:x:2:2:daemon:/sbin:/sbin/nologin
4   7   adm:x:3:4:adm:/var/adm:/sbin/nologin
5   7   lp:x:4:7:lp:/var/spool/lpd:/bin/false
6   7   sync:x:5:0:sync:/sbin:/bin/sync
7   7   shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
8   7   halt:x:7:0:halt:/sbin:/sbin/halt
9   7   mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
10   7   operator:x:11:0:operator:/root:/sbin/nologin
(后面内容省略)

5、使用函数

awk 命令支持使用函数，比如常见的函数有：

length(x)：获取 x 的长度
tolower(x)：将 x 转小写
toupper(x)：将 x 转大写
substr(x,y)：在 x 中，获取从 y 开始截取到末尾的部分

举例：字符串转大写，并统计长度

$ awk -F : '{print toupper($1),length($1)}' /etc/passwd
ROOT 4
BIN 3
DAEMON 6
ADM 3
(后面内容省略)

6、使用流程控制语句

awk 命令也支持使用流程控制语句，比如 if 条件语句，举个我用过的例子：

$ awk 'BEGIN{FS="|";OFS="|"} { if ($6 == 4 || $6 == 9) {print $1,$5}}' demo_20220712.txt >>test.txt

此外，相对简单的条件语句还可以使用简化版，举例说明：

# 过滤出第一列等于指定字符串的数据
$ awk '$1 == "daemon:x:2:2:daemon:/sbin:/sbin/nologin"' /etc/passwd
daemon:x:2:2:daemon:/sbin:/sbin/nologin

# 过滤出第三列大于1小于5的数据
$ awk -F : '$3 > 1 && $3 < 5' /etc/passwd
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/bin/false

$ awk -F : '$3 > 1 && $3 < 5 {print $1,$3}' /etc/passwd
daemon 2
adm 3
lp 4

流程控制语句，又比如 for 循环语句，打印1~10：

$ awk 'BEGIN{ for(i=0;i<=10;i++){ print i} }'
0
1
2
3
4
5
6
7
8
9
10

而 while、do-while 等循环语句，用法类似。

7、使用正则表达式

awk 命令也支持正则表达式的使用，~表示匹配模式开始，//中存放匹配的模式，举例：

# 判断含有daemon字符串的数据
$ awk -F : '$0 ~ /daemon/' /etc/passwd
daemon:x:2:2:daemon:/sbin:/sbin/nologin
libstoragemgmt:x:998:997:daemon account for libstoragemgmt:/var/run/lsm:/sbin/nologin
tss:x:59:59:Account used by the trousers package to sandbox the tcsd daemon:/dev/null:/sbin/nologin
memcached:x:898:991:Memcached daemon:/run/memcached:/sbin/nologin

$ awk -F : '$0 !~ /daemon/' /etc/passwd

$ awk -F : '!/daemon/' /etc/passwd

8、按列求和

awk 命令更倾向于处理规则的文本数据，如果遇到求某一列的和，该如何计算呢？如下：

$ awk -F ":" '{sum += $3}END{print sum}' /etc/passwd
80079

最后

以上梳理了 awk 命令常见使用的场景，从中能够明显的看到 awk 在文本数据处理方面的强大功能，作为入门这篇只梳理到这儿，后面有空再总结下 awk 命令的高级用法，比如 awk 脚本、grep + sed + awk 组合玩转文本处理的复杂场景等。

谁是谁的小确幸

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录