LINUX awk扩展应用

最新推荐文章于 2024-03-11 13:00:00 发布

李赟杰

最新推荐文章于 2024-03-11 13:00:00 发布

阅读量283

点赞数 1

分类专栏：学习

本文链接：https://blog.csdn.net/LYJ_man/article/details/90813634

版权

学习专栏收录该内容

192 篇文章 1 订阅

订阅专栏

问题
本案例要求使用awk工具完成下列两个任务：
去除文件重复行：提取/etc/passwd文件的第7列，保存为a1.txt；然后排除a1.txt文件的重复行，将结果另存为a2.txt
分析Web日志的访问量排名，要求获得客户机的地址、访问次数，并且按照访问次数排名
方案
1）awk经典去重
基本用法：awk ‘!a[$0]++’ filename 。
其中a为数组名，$0为处理对象，表示要去除的是“整行重复”的内容；如果要去除的是“字段重复”的行，可以将$0更改为$1、$2等相应字段。
a[$0]++操作将整行内容作为a数组的下标，当遇到陌生行（第一次出现）的时候，数组元素a[$0]还不存在，因此++操作会失败，通过!取反后则条件成立，从而按照默认的print指令（上述用法中省略了{print}）输出当前行的内容。
当遇到已知的行（第二、三、……次出现）的时候，数组元素a[$0]已经存在，因此++操作会成功，通过!取反后则条件不成立，从而忽略了当前行的内容——也就是说，重复的行被跳过去了。
2）awk统计Web访问排名
在分析Web日志文件时，每条访问记录的第一列就是客户机的IP地址，其中会有很多重复的IP地址。因此只用awk提取出这一列是不够的，还需要统计重复记录的数量并且进行排序。
通过awk提取信息时，利用IP地址作为数组下标，每遇到一个重复值就将此数组元素递增1，最终就获得了这个IP地址出现的次数。
针对文本排序输出可以采用sort命令，相关的常见选项为-r、-n、-k。其中-n表示按数字顺序升序排列，而-r表示反序，-k可以指定按第几个字段来排序。
步骤
实现此案例需要按照如下步骤进行。
步骤一：去除文件重复行
1）提取测试文件

[root@svr5 ~]# awk -F: '{print $7}' /etc/passwd > a1.txt
[root@svr5 ~]# cat a1.txt 
/bin/bash
/sbin/nologin
/sbin/nologin
/sbin/nologin
/sbin/nologin
/bin/sync
/sbin/shutdown
/sbin/halt
/sbin/nologin
/sbin/nologin
.. ..
[root@svr5 ~]#

2）去除a1.txt文件中的重复行，另存为a2.txt

[root@svr5 ~]# awk '!a[$0]++' a1.txt  > a2.txt
[root@svr5 ~]# cat a2.txt 
/bin/bash
/sbin/nologin
/bin/sync
/sbin/shutdown
/sbin/halt
[root@svr5 ~]#

步骤二：统计Web访问量排名
分步测试、验证效果如下所述。
1）提取IP地址及访问量

[root@svr5 ~]# awk  '{ip[$1]++} END{for(i in ip) {print i,ip[i]}}' /var/log/httpd/access_log
127.0.0.1 4
192.168.4.5 17
192.168.4.110 13
.. ..

2）对第1）步的结果根据访问量排名

[root@svr5 ~]# awk  '{ip[$1]++} END{for(i in ip) {print i,ip[i]}}' /var/log/httpd/access_log | sort -nr -k 2
192.168.4.5 17
192.168.4.110 13
127.0.0.1 4
.. ..

李赟杰

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LINUX awk扩展应用

问题本案例要求使用awk工具完成下列两个任务：去除文件重复行：提取/etc/passwd文件的第7列，保存为a1.txt；然后排除a1.txt文件的重复行，将结果另存为a2.txt分析Web日志的访问量排名，要求获得客户机的地址、访问次数，并且按照访问次数排名方案1）awk经典去重基本用法：awk ‘!a[$0]++’ filename 。其中a为数组名，$0为处理对象，表示要去除...
复制链接

扫一扫