awk概述
awk 是一种处理文本文件的语言,是一个强大的文本分析工具。
是专门为文本处理设计的编程语言,也是行处理软件,通常用于扫描、过滤、统计汇总工作
数据可以来自标准输入也可以是管道或文件
20世纪70年代诞生于贝尔实验室,现在CentOS7用来是gawk
之所以是叫做 AWK ,因为其取三位创始人 (Aifred Aho,Peter WeinBerger和 Brian Kernighan 的 Family Name)的首字符。
awk工具介绍
- 功能强大的编辑工具
- 无交互的情况下实现复杂的文本操作
- 相较于sed常作用于一整个行的处理,awk则比较倾向于一行当中分成数个字段来处理,因为awk相当适合小型的文本数据。
命令格式
awk 选项 '模式或条件 { 编辑指令 }' 文件1 文件2 …
awk -f 脚本文件 文件1 文件2 …
awk关键字 选项 命令部分 '[xxxx]' 文件名
awk工作原理
逐行读取文本,默认以空格为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令。
sed命令常用于一整行的处理,而awk比较倾向于将一行分成多个 ““字段” 然后再进行处理。awk信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符”。
"&&"表示“ 与 ”、“ || ”表示“ 或 ”、“ ! ”表示“ 非 ”;可以进行简单的运算,比如“+、-、*、/、%、^”分别代表为“加、减、乘、除以、取余、乘方”。
awk特殊的内建变量(可直接使用)
符号 | 说明 |
---|---|
FS | 列分割符。指定每行文本的字段分隔符,缺省为空格或制表位 |
NF | 当前处理的行的字段个数 |
NR | 当前处理的行的行号(序数) |
$0 | 当前处理的行的整行内容 |
$1 | 代表第一列的内容 |
$n | 当前处理行的第n个字段(第n列) |
FILENAME | 被处理的文件名 |
RS | 行分隔符。 |
awk 从文件上读取资料时,将根据 RS 的定义把资料切割成许多条记录,而 awk 一次仅读入一条记录,以进行处理。预设值为' \n '
简单来说:就是数据记录分隔,默认为 \n ,即每行为一条记录。
awk用法示例
- 按行输出文本
- 按字段输出文本
- 通常管道、双引号调用Shell命令
例
passwd中,前10行拷贝到aa文件中
a=hello
b=你好
awk 'BEGIN{print"'$a' '$b'"}'
hello 你好
" \t " 为制表符号
定义多个分隔符,只要有其中一个都算做分隔符
awk常用内置变量
命令 | 说明 |
---|---|
$1 | 表示第一列 |
$2 | 表示第二列 |
$0 | 表示整行 |
NF | 一行的列数 |
NR | 行数 |
其他内置变量
其他内置变量的用法FS(输入)、OFS、NR、FNR、RS、ORS
FS:输入字段的分隔符 默认是空格
OFS:输出字段的分隔符 默认也是空格
FNR:读取文件的记录数(行号),从1开始,新的文件重新重1开始计数
RS:输入行分隔符 默认为换行符
ORS:输出行分隔符 默认也是为换行符
awk 的 if语句 单分支 多分支 双分支
if语句:awk的if语句也分为单分支、双分支和多分支
单分支为if(){}
双分支为if(){}else{}
多分支为if(){}else if(){}else{}