GAWK 学习:AWK 语言基础

本文介绍了GAWK,它是AWK编程语言的开源实现,适用于UNIX系统,尤其适合文本处理和模式匹配。GAWK具有可移植性、无内存限制等优点。文章讲解了GAWK的基础概念,如规则、字段和操作,以及如何使用GAWK处理输入文件和进行模式匹配。还展示了GAWK的使用示例,如打印特定字段、更改字段和记录分隔符。
摘要由CSDN通过智能技术生成

本文结构为:

  • awk与gawk的关系
  • gawk 的特性和优点
  • gawk使用规则与运行方式
  • gawk字段、变量、操作符
  • gawk以/etc/passwd为操作文件的常用用法示例

GNU AWK (GAWK) 是AWK 编程语言的开放源代码实现,可用于所有的 UNIX® 系统。AWK 语言是一种 UNIX 备用工具,它是一种功能强大的文本操作和模式匹配语言,特别适用于进行信息检索,这使得它非常适合用于当今的数据库驱动的应用程序。因为它集成于 UNIX 环境,所以可以设计、构建和快速地执行完整的工作程序,并且立即就能得到结果。

AWK 语言

AWK 是GAWK编程语言本身的名称,它编写于 1977 年。其名称是三个主要作者的姓的首字母缩写:Drs. A. Aho、P. Weinberger 和 B. Kernighan。

因为 AWK 是一种文本处理和模式匹配语言,所以它通常称为数据驱动的 语言,程序语句描述需要进行匹配和处理的输入数据,而不是程序操作步骤的序列,在许多语言中都是这样的。AWK 程序在其输入数据中搜索包含模式的记录、对该记录执行指定的操作,直到程序到达输入的末尾。AWK 程序擅长于处理数据库和表型数据,如从多个数据集中提取一些列、建立报表或分析数据。事实上,AWK 适合于编写短小的、一次性程序,以执行一些灵活的文本处理,而使用其他的语言则可能成本较高。另外,作为一种功能强大的工具,AWK 常常在命令行中使用或与管道一起使用。

与 Perl(它起源于 AWK)一样,AWK 是一种解释性语言,所以 AWK 程序通常不需要进行编译。相反,在运行时将程序脚本传递给 AWK 解释器。

GAWK 的特性和优点

GAWK 具有下列独特的特性和优点:

  • 在所有主要的 UNIX 平台以及其他操作系统中都可以使用它,包括 Mac OS X 和 Microsoft® Windows®。
  • 它是可移植操作系统接口 (POSIX) 兼容的,并且包含 1992 POSIX 标准中的所有特性。
  • 它没有预定义的内存限制。
  • 可以使用一些新的内置函数和变量。
  • 它包含一些特殊的 regexp 操作符。
  • 记录分隔符中可以包含 regexp 操作符。
  • 可以使用特殊文件支持来访问标准的 UNIX 流。
  • 可以使用 Lint 检查。
  • 在缺省情况下,它使用扩展的正则表达式。
  • 它支持无限制的行长度和连续使用反斜杠字符 ()。
  • 它具有更好的、更具描述性的错误消息。
  • 它包含一些 TCP/IP 网络函数。

AWK 输入文件的组成部分

AWK 针对文本输入进行操作,而该文本可以是一个文件或标准输入流,它对文本进行分类以得到记录和字段。AWK 记录 是单个的、连续长度的输入数据,是 AWK 的操作对象。记录由记录分隔符 限定,记录分隔符是一个字符串,并且定义为 RS 变量。在缺省情况下,RS 的值设置为换行符,所以 AWK 的缺省行为是将整行输入作为记录连续地读取记录,直到到达输入的末尾

图 1. 将 AWK 输入数据划分为记录
这里写图片描述
还可以将每个记录进一步分解为称作字段 的单独的块。与记录一样,字段也受到限定。缺省的字段分隔符 是任意数量的空白字符,包括制表符和空格字符。所以在缺省情况下,将输入行进一步分解为单独的单词(由空白字符分隔的任何字符组)。
您可以通过字段编号来引用记录中的字段,从 1 开始。您可以使用字段编号或特殊的变量 NF 来调用每个记录中的最后一个字段,该变量包含当前记录中字段的个数。
您可以通过字段编号 0 来引用整个记录,包括所有的字段和字段分隔符。图 2 显示了这样一个字段的内容,即将 AWK 输入数据的单个记录分解为复合字段。
图 2. AWK 记录中的字段
这里写图片描述

了解规则

AWK 程序由规则 组成,它们是一些模式,后面跟着由换行分隔的操作。当 AWK 执行一条规则时,它在输入记录中搜索给定模式的匹配项,然后对这些记录执行给定的操作:
/pattern/ { action }
您可以在规则中省略模式或操作。
操作由 AWK 语句组成,使用分号 (;) 来进行分隔。您还可以在同一行内容中提供多个规则,但是您必须使用分号对它们进行分隔。当规则中仅包含一项操作时,将对输入中的每条记录执行该操作。当规则中仅包含一个模式时,将打印出匹配该模式的所有记录。
空模式 // 匹配空字符,这等价于规则中不包含任何模式。然而,当给定空操作 {} 时,这并不等价于没有任何操作。空操作表示不进行任何操作(因此,不打印出该记录)。

一些基本的操作

常用的 GAWK 语句
这里写图片描述

运行 GAWK 程序
GAWK 接受两个输入文件,即包含 AWK 程序本身的命令

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值