shell编程之awk命令详解

最新推荐文章于 2024-03-21 14:49:52 发布

之言�

最新推荐文章于 2024-03-21 14:49:52 发布

阅读量406

点赞数

原文链接：https://blog.csdn.net/weixin_44911366/article/details/90415749

版权

shell编程之awk命令详解
linux
本篇博客主要介绍linux常用命令中的对文本和数据进行处理的命令awk的用法。

awk命令

awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk有很多内建的功能，比如数组、函数等，这是它和C语言的相同之处，灵活性是awk最大的优势。

awk命令格式和选项

语法格式

awk [options] ‘script’ var=value file(s)
awk [options] -f scriptfile var=value file(s)
常用命令选项

-F fs fs 指定输入分隔符，fs可以时字符串或正则表达式

-v var=value 赋值一个用户定义变量，将外部变量传递给awk

-f scriptfile 从脚本文件中读取awk命令

awk脚本

awk脚本是由模式和操作组成的。

模式与操作

模式

模式可以是以下任意一种：

正则表达式：使用通配符的扩展集

关系表达式：使用运算符进行操作，可以是字符串或数字的比较测试

模式匹配表达式：用运算符～（匹配）和~!不匹配

BEGIN 语句块， pattern语句块， END语句块

操作

操作由一个或多个命令、函数、表达式组成，之间由换行符或分号隔开，并位于大刮号内，主要部分是：变量或数组赋值、输出命令、内置函数、控制流语句。

awk脚本基本格式

awk ‘BEGIN{ commands } pattern{ commands } END{ commands }’ file
一个awk脚本通常由BEGIN，通用语句块，END语句块组成，三部分都是可选的。脚本通常是被单引号或双引号包住。

awk ‘BEGIN{ i=0 } { i++ } END{ print i }’ filename
awk “BEGIN{ i=0 } { i++ } END{ print i }” filename
awk执行过程分析

第一步：执行BEGIN { commands } pattern 语句块中的语句

BEGIN语句块：在awk开始从输入输出流中读取行之前执行，在BEGIN语句块中执行如变量初始化，打印输出表头等操作。
第二步：从文件或标准输入中读取一行，然后执行pattern{ commands }语句块。它逐行扫描文件，从第一行到最后一行重复这个过程，直到全部文件都被读取完毕。

pattern语句块：pattern语句块中的通用命令是最重要的部分，它也是可选的。如果没有提供pattern语句块，则默认执行{ print }，即打印每一个读取到的行。{ }类似一个循环体，会对文件中的每一行进行迭代，通常将变量初始化语句放在BEGIN语句块中，将打印结果等语句放在END语句块中。
第三步：当读至输入流末尾时，执行END { command }语句块

END语句块:在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块。
AWK内置变量

$n : 当前记录的第n个字段，比如n为1表示第一个字段，n为2表示第二个字段。

$0 : 这个变量包含执行过程中当前行的文本内容。

ARGC : 命令行参数的数目。

ARGIND : 命令行中当前文件的位置（从0开始算）。

ARGV : 包含命令行参数的数组。

CONVFMT : 数字转换格式（默认值为%.6g）。

ENVIRON : 环境变量关联数组。

ERRNO : 最后一个系统错误的描述。

FIELDWIDTHS : 字段宽度列表（用空格键分隔）。

FILENAME : 当前输入文件的名。

NR : 表示记录数，在执行过程中对应于当前的行号