sed和awk是linux/unix系统中两种强大的文本处理工具,sed是非交互式的文本编辑器,awk是一种能够对结构化数据进行操作,并产生格式化报表的编程语言。
a、sed从文本的一个文本行或标准输入中读取数据,将其复制到缓冲区,然后读取命令行或脚本的第一个命令,对此命令要求的行号进行编辑,重复此过程,知道命令行或者
脚本中的所有命令都执行完毕。
1、sed使用场合:
1.1、编辑相对交互式文本编辑器而言太大的文件;
1.2、编辑命令太复杂,在交互式文本编辑器中难以输入的情况;
1.3、对文件扫描一遍,但是需要执行多个编辑函数的情况;
2、sed三种调用方式:
2.1、shell命令行输入命令调用,格式为:
sed [选项] ‘sed命令’ 输入文件
注意sed命令需要用单引号引起来。
2.2、sed命令插入脚本文件后,然后通过sed命令调用,格式为:
sed [选项] -f sed脚本文件 输入文件
2.3、sed命令插入脚本文件后,然后设置可执行文件,格式为:
./sed脚本文件 输入文件
3、sed命令选项及其意义:
4、sed命令
sed命令包含两部分定位文本行和sed编辑命令,sed编辑命令对定位文本行进行处理
4.1、sed提供以下两种方式定位文本:
4.2、sed编辑命令标识对文本进行何种处理,如打印、删除、追加、插入、替换等,sed提供了极为丰富的编辑命令,
5、sed编程例子
在此不赘述,如有兴趣可参考《linux shell编程从入学到精通》这本书的4.2节。
b、awk是linux强大的文本处理工具,本文将介绍awk的作用、awk编程模型和脚本调用的相关方法,并详述阐述相关的使用方法。
1、awk简介
awk是一中编程语言,语法与C语言语法类似。
与sed相似,都是用来进行文本处理的,awk可以从文字或字符串中基于指定规则浏览抽取信息,在抽取信息基础上,才能进行其他文本操作。
2、awk可以实现功能
利用awk语言可以实现数据查找、抽取文件中数据、创建管道流命令等功能。
3、awk的编程模型
awk程序有一个主输入循环(main input loop)维持,主输入循环反复执行,知道终止条件被触发。当然主输入循环无需由使用程序员去写,awk已经搭好主输入循环
的框架,使用者写的代码被嵌套到主输入循环框架中执行。主输入循环自动依次读取输入文件行,以供awk处理,而处理文件输入行的动作是是由使用者添加的。与其
他高级语言操作文件要自己写一个main函数,然后打开文件、读取文件行、进行相应处理、关闭文件等操作不同,awk自动完成了上述步骤。
从上面编程模型中看到,awk定义了两个特殊字段:BEGIN和END,BEGIN用于在主输入循环之前执行,即在未读取输入文件行之前执行,END则相反,即在读取输入文件
处理完毕之后。awk执行过程如上图所示,可简单的将awk编程模型分为三个阶段:
3.1、读输入文件之前的执行代码段(由BEGIN关键字标识);
3.2、读输入文件时的执行代码段(由BEGIN关键字标识);
3.3、读输入文件完毕之后的执行代码段(由END关键字标识);
4、awk调用方法
awk的调用方法有三种,一种是shell命令行方式,另外两种是将awk程序写入脚本文件,然后执行脚本文件。三种方式归纳如下:
4.1、shell命令行输入命令调用awk,格式为:
awk [-F 域分割符] 'awk程序段' input输入文件
注意awk程序段,必须用单引号引起来。
4.2、awk程序段插入脚本,然后通过awk命令调用,格式为:
awk -f awk脚本文件 input输入文件
4.3、设置脚本为可执行文件,直接执行脚本文件
../awk脚本文件 input输入文件
5、在此不赘述,如有兴趣可参考《linux shell编程从入学到精通》这本书的4.4节。