shell-awk命令详解（理论+实战）

YCyjs

已于 2024-07-25 20:52:41 修改

阅读量491

点赞数 15

分类专栏： shell脚本文章标签：云计算服务器 linux 网络运维

于 2024-07-25 16:55:59 首次发布

本文链接：https://blog.csdn.net/YCyjs/article/details/140681419

版权

shell脚本专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、概述

AWK 是一种处理文本文件的语言，是一个强大的文本分析工具。
之所以叫 AWK 是因为其取了三位创始人 Alfred Aho，Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符
linux中有三剑客之称：
三剑客功能:
[awk]:  处理文本
grep ： 过滤文本
sed  :  修改文本

awk ：全称 Aho, Weinberger, Kernighan ，报告生成器，格式化文本输出， GNU/Linux 发布的 AWK 目前由自由软件基金会（FSF ）进行开发和维护，通常也称它为 GNU AWK。

它是专门为文本处理设计的编程语言，也是行处理软件，通常用于扫描、过滤、统计汇总工作

数据可以来自标准输入也可以是管道或文件。

20 世纪 70 年代诞生于贝尔实验室，现在 centos7 用的是 gawk。

有多种版本：

AWK：原先来源于 AT & T 实验室的的AWK
NAWK：New awk，AT & T 实验室的AWK的升级版
GAWK：即GNU AWK。所有的GNU/Linux发布版都自带GAWK，它与AWK和NAWK完全兼容

在 linux 上常用的是 gawk,awk 是 gawk 的链接文件

1.2、工作原理

当读到第一行时，匹配条件，然后执行指定动作，再接着读取第二行数据处理，不会默认输出

如果没有定义匹配条件默认是匹配所有数据行， awk 隐含循环，条件匹配多少次动作就会执行多少次逐行读取文本，默认以空格或tab 键为分隔符进行分隔，将分隔所得的各个字段保存到内建变量中，并按模式或者条件执行编辑命令。

sed 命令常用于一整行的处理，而 awk 比较、倾向于将一行分成多个 "" 字段 " 然后再进行处理。 awk

信息的读入也是逐行读取的，执行结果可以通过 print 的功能将字段数据打印显示。

在使用 awk 命令的过程中, 可以使用逻辑操作符 " &&" 表示 " 与 " 、 "|| 表示 " 或 " 、 "!" 表示非 ";

还可以进行简单的数学运算，如 + 、 *、 / 、 % 、 ^ 分别表示加、减、乘、除、取余和乘方。

1.3、工作流程

man gawk----> pattern scanning and processing language 模式扫描和处理语言。

pattern [ ˈ pætn] 模式； process [ ˈ pr əʊ ses] 处理

任何 awk 语句都是由模式和动作组成，一个 awk 脚本可以有多个语句。模式决定动作语句的触发条件和触发时间

1.4、运行模式

正则表达式 : /root/ 匹配含有 root 的行 /*.root/
关系表达式： < > && || + *
匹配表达式： ~ ！~ 动作：
变量、命令、内置函数、流控制语句它的语法结构如下：

1.5、执行流程

BEGIN 语句设置计数和打印头部信息，在任何动作之前进行

END 语句输出统计结果，在完成动作之后执行

AWK 执行的流程非常简单：读（ Read ）、执行（ Execute ）与重复（ Repeat ）。

下面的流程图描述出了AWK 的工作流程

1.6、基本语法

命令格式

awk 选项 ' 模式或条件 { 操作 }' 文件 1 文件 2 ...

如果动作较为复杂，也可以将动作写在一个单独的文件中，并使用 -f选项来指定该文件：

awk -f 脚本文件文件 1 文件 2 ..

格式： awk 选项命令部分 '{xxxx}' 文件名

AWK 支持两种不同类型的变量：

内建变量（也称为内置变量或预定义变量，可直接使用）和 用户自定义变量

内置变量（预定义变量）如下所示：

FS：指定每行文本的字段分隔符，默认为空格或制表位。
NF：当前处理的行的字段个数。在执行过程中对应于当前的字段数，NF：列的个数
NR：当前处理的行的行号（序数）。在执行过程中对应于当前的行号
$0：当前处理的行的整行内容。
$n：当前处理行的第 n 个字段（第 n 列）。比如: $1 表示第一个字段，$2 表示第二个字段
FILENAME：被处理的文件名(当前输入文件的名)。
FNR 各文件分别计数的行号
OFS 输出字段分隔符（默认值是一个空格）
ORS 输出记录分隔符（默认值是一个换行符）
RS:行分隔符。awk从文件上读取资料时,将根据Rs的定义把资料切割成许多条记录, 而awk一次仅读入一条记录,以进行处理。预设值是" \n'，简说：数据记录分隔，默认为\n，即每行为一条记录

二、实战案列

2.1、内建变量

awk 包含几个特殊的内建变量（可直接用）如下所示：

FS ：指定每行文本的字段分隔符，默认为空格或制表位。

NF ：当前处理的行的字段个数。

NR ：当前处理的行的行号（序数）。

$0 ：当前处理的行的整行内容。

$n ：当前处理行的第 n 个字段（第 n 列）。

FILENAME ：被处理的文件名。

RS: 行分隔符。 awk 从文件上读取资料时 , 将根据 Rs 的定义把资料切割成许多条记录 , 而 awk 一次仅读入一条记录, 以进行处理。预设值是 " \n'

简说：数据记录分隔，默认为 \n ，即每行为一条记录

FS的作用

在打印之前先定义字段分隔符为冒号

NF的作用

打印每一行的列数，列的个数

NR的作用

显示行号

$0的作用

一整行内容

awk -F: '/root/{print $0}' /etc/passwd

搜索包含root的整行内容，全部打印出来

$n（1>n为数字）的作用

/awk 默认把这一行当做一列，因为没有被空格分隔， awk 默认以空格或tab 键分隔

awk '{print $1}' /etc/passwd

在打印一遍

awk '{print "hello" }' </etc/passwd

直接打印内容

自定义冒号为分隔符显示分隔之后的第五列

awk -F: '{print $5}' /etc/passwd

// 定义多个分隔符，只要看到其中一个都算作分隔符

awk -F[:/] '{print $1}' /etc/passwd

awk 常用内置变量： $1 、 $2 、 NF 、 NR 、 $0

$1 ：代表第一列

$2 ：代表第二列以此类推

$0 ：代表整行

NF ：一行的列数

NR ：行数

打印包含root的行的第一列

打印包含root的行的第一列和第六列

默认应该整行

多一个$0就多显示行内容

nr行数，可以不用print 直接默认显示

当然也可以加上效果一样

awk 'NR==2{print}' /etc/passwd //同上效果

打印第二行的第一列

awk -F: 'NR==2{print $1}' /etc/passwd

打印最后每行一列

awk -F: '{print $NF}' /etc/passwd

打印总行数

awk END'{print NR}' /etc/passwd

打印文件最后一行

awk -F: '{print "第" NR "行有" NF "列" }' /etc/passwd

扩展生产案列：网卡的ip、流量

查看流量

查看ip地址

查看磁盘空间

2.3、BEGIN 和 END 运算

逐行执行开始之前执行什么任务，结束之后再执行什么任务，用 BEGIN 、 END ，BEGIN一般用来做初始化操作，仅在读取数据记录之前执行一次

END 一般用来做汇总操作，仅在读取完数据记录之后执行一次。

小数也可以运算，不指定初始值，初始值就为0，如果是字符串，则默认为空。^和**都是幂运算，

BEGIN 在处理文件之前，所以后面不跟文件名也不影响。

模糊匹配，用 ~ 表示包含， !~ 表示不包含

awk -F: '$1~/ro/' /etc/passwd // 模糊匹配，只要有 ro 就匹配上

awk -F: '$7!~/nologin$/{print $1,$7}' /etc/passwd

关于数值与字符串的比较

比较符号： == != <= >= < >

第五行

和5行内

加“”代表精确查找

3到100列的

逻辑运算 && ||

&& 和 || 是逻辑运算符，用于组合多个条件并控制程序流程。

&& 要求所有条件都为真时才为真，否则为假。

|| 只要有一个条件为真就为真，全为假时才为假。

打印 1-200 之间所有能被 7 整除并且包含数字 7 的整数数字

其他内置变量的用法 FS （输入）、 OFS 、 NR 、 FNR 、 RS 、 ORS

FS ：输入字段的分隔符默认是空格

OFS ：输出字段的分隔符默认也是空格

FNR ：读取文件的记录数（行号），从 1 开始，新的文件重新重 1 开始计数

RS ：输入行分隔符默认为换行符

ORS ：输出行分隔符默认也是为换行符

OFS的作用

OFS 定义了输出时以什么分隔， $1 $2 中间要用逗号分隔，因为逗号默认被映射为 OFS 变量，而这个变量默认是空格

OFS ：输出分隔符默认也是空格，我们这里是---，然后输出$2

awk 'BEGIN{FS=":";OFS="---"}{print $1,$2}' /etc/passwd

FNR

awk '{print FNR,$0}' /etc/resolv.conf /etc/hosts

可以看出 FNR的行号在追加当有多个文件时

awk '{print NR,$0}' /etc/resolv.conf /etc/hosts

NR代表当前记录号（即当前行号，在整个输入文件中是唯一的）。
$0代表当前记录的内容，即当前行的全部文本。

因此，'{print NR,$0}'这个动作的意思是“打印当前行号（NR）和当前行的全部内容（$0）”。

FNR区分文件给行号，NR不区分

指定以什么为换行符，这里指定是冒号，指定的肯定是原文里存在的字符

ORS

把多行合并成一行输出，输出的时候自定义以空格分隔每行，本来默认的是回车键

YCyjs

关注

15
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
shell-awk命令详解（理论+实战）

AWK是一种处理文本文件的语言，是一个强大的文本分析工具。它是专门为文本处理设计的编程语言，也是行处理软件，通常用于扫描、过滤、统计汇总工作数据可以来自标准输入也可以是管道或文件。20世纪70年代诞生于贝尔实验室，现在centos7用的是gawk之所以叫AWK是因为其取了三位创始人和的的首字符。
复制链接

扫一扫