linux三剑客之AWK

最新推荐文章于 2024-04-14 16:47:10 发布

明天一定.

最新推荐文章于 2024-04-14 16:47:10 发布

阅读量1.7k

点赞数

分类专栏： centos之上文章标签： linux unix 服务器

本文链接：https://blog.csdn.net/wai_58934/article/details/128734740

版权

centos之上专栏收录该内容

18 篇文章 1 订阅

订阅专栏

AWK是一种用于Linux/Unix的文本处理语言，常用于数据分析。它具有内置变量、函数和控制语句，如BEGIN和END块，以及模式匹配功能。文章通过a.txt实例展示了如何提取字段、进行条件判断、排序和计算。

摘要由CSDN通过智能技术生成

AWK是什么

awk 是一种编程语言，用于在linux/unix下对文本和数据进行处理。有多种版本：New awk（nawk），GNU awk（ gawk）等。数据可以来自标准输入(stdin)、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk有很多内建的功能，比如数组、函数等，这是它和C语言的相同之处，灵活性是awk最大的优势。

awk是由模式和操作组成。模式包括正则表达式、关系表达式、模式匹配表达式和(BEGIN语句块、pattern语句块、END语句块)。操作由一个或多个命令、函数、表达式组成，之间由换行符或分号隔开，并位于大括号内

AWK基本结构

awk 'BEGIN{ commands } pattern{ commands } END{ commands }' file

由BEGIN语句块、用于匹配信息的语句块、END语句块三部分组成。

这三个部分是可选的。任意一个部分都可以不出现在脚本中。

执行顺序为：

第一步：执行BEGIN{ commands }语句块中的语句；
第二步：从文件或标准输入(stdin)读取一行，然后执行pattern{ commands }语句块，它逐行扫描文件，从第一行到最后一行重复这个过程，直到文件全部被读取完毕。
第三步：当读至输入流末尾时，执行END{ commands }语句块。

a.txt的文本实例

a.txt内容如下

1 2 3
4 5 6 19
7 8 9 29 35
2 3 5 6 7

我想输出每行的第一列数据。注：print表示输出，$1表示第一列

awk '{print $1}' a.txt

结果

1
4
7
2

AWK内置变量

[A][N][P][G]表示第一个支持变量的工具，[A]=awk、[N]=nawk、[P]=POSIXawk、[G]=gawk

$n 当前记录的第n个字段，比如n为1表示第一个字段，n为2表示第二个字段。
$0 这个变量包含执行过程中当前行的文本内容。
[N] ARGC 命令行参数的数目。
[G] ARGIND 命令行中当前文件的位置（从0开始算）。
[N] ARGV 包含命令行参数的数组。
[G] CONVFMT 数字转换格式（默认值为%.6g）。
[P] ENVIRON 环境变量关联数组。
[N] ERRNO 最后一个系统错误的描述。
[G] FIELDWIDTHS 字段宽度列表（用空格键分隔）。
[A] FILENAME 当前输入文件的名。
[P] FNR 同NR，但相对于当前文件。
[A] FS 字段分隔符（默认是任何空格）。
[G] IGNORECASE 如果为真，则进行忽略大小写的匹配。
[A] NF 表示字段数，在执行过程中对应于当前的字段数。
[A] NR 表示记录数，在执行过程中对应于当前的行号。
[A] OFMT 数字的输出格式（默认值是%.6g）。
[A] OFS 输出字段分隔符（默认值是一个空格）。
[A] ORS 输出记录分隔符（默认值是一个换行符）。
[A] RS 记录分隔符（默认是一个换行符）。
[N] RSTART 由match函数所匹配的字符串的第一个位置。
[N] RLENGTH 由match函数所匹配的字符串的长度。
[N] SUBSEP 数组下标分隔符（默认值是34）。