gawk学习笔记

最新推荐文章于 2024-09-15 21:53:37 发布

weixin_33775572

最新推荐文章于 2024-09-15 21:53:37 发布

阅读量84

点赞数

文章标签： awk 操作系统数据库

原文链接：http://blog.51cto.com/leeyan/1697634

版权

gawk和sed,grep是linux中文本处理三剑客，功能异常强大，可以把它当做一门独立的编程语言使用,之前的博客中已经描述了grep和sed的使用方法，下面描述gawk

基本用法：gawk [options] 'program' FILE ...
    program: PATTERN{ACTION STATEMENTS}
    语句之间用分号分隔
    print, printf
    选项：
        -F：指明输入时用到的字段分隔符；
        -v var=value: 自定义变量；

1、print
    print item1, item2, ...
    要点：
    (1) 逗号分隔符；
    (2) 输出的各item可以字符串，也可以是数值；当前记录的字段、变量或awk的表达式；

注意：Awk中如果想实现变量替换不可以用引号

(3) 如省略item，相当于print $0;

2、变量

2.1 内建变量
FS：input field seperator，默认为空白字符；相当于awk -F

OFS：output field seperator，默认为空白字符；

RS：input record seperator，输入时的换行符；

ORS：output record seperator，输出时的换行符；

NF：number of field，字段数量
{print NF}, {print $NF}

awk引用内部变量不需要在前面使用$

输出最后一段：

NR：number of record, 行数；

FNR：各文件分别计数；行数；

FILENAME：当前文件名；

ARGC：命令行参数的个数；

ARGV：数组，保存的是命令行所给定的各参数；

    2.2 自定义变量
        (1) -v var=value
       变量名区分字符大小写；

(2) 在program中直接定义

3、printf命令
        格式化输出：printf FORMAT, item1, item2, ...
        (1) FORMAT必须给出;
        (2) 不会自动换行，需要显式给出换行控制符，\n
        (3) FORMAT中需要分别为后面的每个item指定一个格式化符号；
        格式符：将item中的信息使用格式刷定义了格式后输出
        %c: 显示字符的ASCII码；
        %d, %i: 显示十进制整数；

        %e, %E: 科学计数法数值显示；
        %f：显示为浮点数；
        %g, %G：以科学计数法或浮点形式显示数值；
        %s：显示字符串；

%u：无符号整数；
%%: 显示%自身；

    修饰符：
        #[.#]：第一个数字控制显示的宽度；第二个#表示小数点后的精度；
            例如：%3.1f代表宽度为3，精度为1
        -: 左对齐
        +：显示数值的符号

4、操作符
    算术操作符：
        x+y, x-y, x*y, x/y, x^y, x%y
        -x
        +x: 转换为数值；
    字符串操作符：没有符号的操作符---表示字符串连接
    赋值操作符：
        =, +=, -=, *=, /=, %=, ^=
        ++, --
    比较操作符：
        >, >=, <, <=, !=, ==
    模式匹配符：
        ~：是否匹配
        !~：是否不匹配
    逻辑操作符：
        &&
        ||
        !

    函数调用：
        function_name(argu1, argu2, ...)
    条件表达式：
        selector?if-true-expression:if-false-expression

5、PATTERN：地址定界
(1) empty：空模式，匹配每一行；
(2) /regular expression/：仅处理能够被此处的模式匹配到的行；

(3) relational expression: 关系表达式；结果有“真”有“假”；结果为“真”才会被处理；
真：结果为非0值，非空字符串都表示为真；

    (4) line ranges：行范围，
        startline,endline：/pat1/,/pat2/
        注意：不支持直接给出数字的格式

使用判断：

使用模式并判断：

[root@node3 ~]# awk -F: '/^h/,/^u/{print $1}' /etc/passwd
halt
mail
uucp
haldaemon
gdm
ntp
apache
saslauth
postfix
rpcuser
nfsnobody
pulse
sshd
tcpdump
mysql
mongod

    (5) BEGIN/END模式
        BEGIN{}: 仅在开始处理文件中的文本之前执行一次；
        END{}：仅在文本处理完成之后执行一次；

7、控制语句
    if(condition) {statments}
    if(condition) {statments} else {statements}
    while(conditon) {statments}
    do {statements} while(condition)
    for(expr1;expr2;expr3) {statements}
    break
    continue
    delete array[index]
    delete array
    exit
    { statements }

7.1 if-else 使用场景：对awk取得的整行或某个字段做条件判断；

单分支：