shell脚本学习：不得不细心之sed和grep,sort和uniq，从细节看“认真”

最新推荐文章于 2023-07-18 16:50:57 发布

deansrk

最新推荐文章于 2023-07-18 16:50:57 发布

阅读量3.1k

点赞数

文章标签：脚本 shell 正则表达式 windows function file

本文链接：https://blog.csdn.net/deansrk/article/details/6641639

版权

今天下午忙了一个下午写一个小脚本，中间出了很多错误，发现有关sort和uniq的细节问题，而且发现了自己写脚本一些小的方面的疏忽，编程是一门讲究严禁的学问，必须一字不差，否则轻则结果错误，重则无法运行。现在把自己的这些毛病总结下！

今天下午的脚本：

写一个脚本：
1、下载文件ftp://192.168.0.254/pub/Files/access_log至/tmp目录；
2、分析并显示/tmp/access_log文件中位于行首的IP中出现次数最多的前5个，并说明每一个出现了多少次；
3、取出/tmp/access_log文件中以http://开头，后面紧跟着一个域名或IP地址的字符串，比如：http://www.linux.com/install/images/style.css 这个串的http://www.linux.com的部分；而后显示出现次数最多的前5个；
要求：第2、3功能各以函数的方式实现；

#aceess_log的文件信息部分如下：

pleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.107 Safari/534.13"
192.168.0.191 - - [24/Jul/2011:17:43:17 +0800] "GET /static/image/cr180_dzx//scrolltop.gif HTTP/1.1" 304 - "http://www.linux.com/forum.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.107 Safari/534.13"
192.168.0.191 - - [24/Jul/2011:17:43:17 +0800] "GET /uc_server/images/noavatar_small.gif HTTP/1.1" 304 - "http://www.linux.com/forum.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.107 Safari/534.13"
192.168.0.191 - - [24/Jul/2011:17:43:17 +0800] "GET /favicon.ico HTTP/1.1" 304 - "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.107 Safari/534.13"
192.168.0.191 - - [24/Jul/2011:17:43:17 +0800] "GET /forum.php HTTP/1.1" 200 17354 "http://www.linux.com/group.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.107 Safari/534.13"
192.168.0.191 - - [24/Jul/2011:17:43:17 +0800] "GET /data/cache/style_2_common.css?o4R HTTP/1.1" 304 - "http://www.linux.com/forum.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.107 Safari/534.13"
192.168.0.191 - - [24/Jul/2011:17:43:17 +0800] "GET /data/cache/style_2_forum_index.css?o4R HTTP/1.1" 304 - "http://www.linux.com/forum.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.107 Safari/534.13"
192.168.0.191 - - [24/Jul/2011:17:43:17 +0800] "GET /static/js/common.js?o4R HTTP/1.1" 304 - "http://www.linux.com/forum.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.107 Safari/534.13"
192.168.0.191 - - [24/Jul/2011:17:43:17 +0800] "GET /static/image/cr180_dzx//bg.jpg HTTP/1.1" 304 - "http://www.linux.com/forum.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.107 Safari/534.13"
192.168.0.191 - - [24/Jul/2011:17:43:17 +0800] "GET /static/image/diy/panel-toggle.png HTTP/1.1" 304 - "http://www.linux.com/forum.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.107 Safari/534.13"

我们的目的是要抓取指定的信息并且排名，这样肯定要用到正则表达式，而且是三个比较长的正则表达式，对正则表达式的书写有一定的要求，我在书写这三个正则表达式时，遇到了很多问题，根据题目的要求要用到sed命令把指定的内容抓出来并替换掉，而我出现了如下错误

1正则表达式最后忘了加 .* 这样对这么长的行起不到替换的作用

2在sed命令抓取后，有一些不符合要求的项也显示出来，这使用可以使用grep “http://” 去掉这些没用的行（我在这一步耽误了很长时间）

3\{ \} 写成了\{ }\ 属于笔误，但书写较长的正则表达式是，这样的错误不可原谅，所以一定要实现把这些需要转移的括号给完成，然后在写要匹配的内容，以免错误的发生。

4 sed 命令忘了写 ‘’中的一个，应该实现就写好‘’避免遗忘以出错

我的第二个函数如下

function URL {
   sed '1,$s@.*\(http://[a-zA-Z]\{1,\}\.[a-zA-Z]\{1,\}\.[a-zA-Z]\{1,\}\).*@\1@g' /tmp/access_log | grep "^http://" > /tmp/tt.1
   sed '1,$s@.*\(http://[0-9]\{1,\}\.[0-9]\{1,\}\.[0-9]\{1,\}\.[0-9]\{1,\}\).*@\1@g' /tmp/access_log | grep "^http://" >> /tmp/tt.1
   echo -e "  \033[33mTIMES   Doman\033[0m  \033[5;32m<---------Here is the doman rank\033[0m"
   sort /tmp/tt.1 | uniq -c | sort -rn | head -5

很明显,这样长的正则表达式很容易出错，希望以后在书写sed 命令和正则表达式以及其他的命令时能吸取教训。

sort和uniq

这两个命令有一些特别容易忽视的问题，比如uniq命令当使用sourt -n时，它并不是以数字大小比较，而是以首字符大小比较！（千万注意）所以，应该使用sort -rn来用数字排序。而uniq 在处理特别的数据时，如果不用sort事先处理的话，会出现不是自己想要的结果，如下：

[root@dean 725-27]# sed '1,$s@.*\(http://[a-zA-Z]\{1,\}\.[a-zA-Z]\{1,\}\.[a-zA-Z]\{1,\}\).*@\1@g' /tmp/access_log | grep "^http://" | uniq -c
      2 http://www.baidu.com                    //baidu在下面又出现了！
  11983 http://www.linux.com
      1 http://i.ifeng.com
   3761 http://www.linux.com
      4 http://www.baidu.com                    //重复出现！

这是因为uniq的处理机制，并不是合并全部重复的，而是连续重复的！所以正确的使用方法应该是，先将要处理的文件用sort先排序，将他们重复的排序在一起，然后用uniq处理

sort   file | uniq -c  | sort -rn

实现排序

整个脚本的代码如下：

#!/bin/bash
cd /tmp
wget ftp://192.168.0.254/pub/Files/access_log
echo -e "\033[32mdownload secessfull!\033[0m "
echo "---------------------------------------"
FILE=/tmp/access_log
function IP {
   echo -e "  \033[33mTIMES   IP\033[0m  \033[5;32m<------------ Here is the ip rank\033[0m"       
   awk '{print $1}' $FILE | sort | uniq -c | sort -rn | head -5
}
function URL {
   sed '1,$s@.*\(http://[a-zA-Z]\{1,\}\.[a-zA-Z]\{1,\}\.[a-zA-Z]\{1,\}\).*@\1@g' /tmp/access_log | grep "^http://" > /tmp/tt.1
   sed '1,$s@.*\(http://[0-9]\{1,\}\.[0-9]\{1,\}\.[0-9]\{1,\}\.[0-9]\{1,\}\).*@\1@g' /tmp/access_log | grep "^http://" >> /tmp/tt.1
   echo -e "  \033[33mTIMES   Doman\033[0m  \033[5;32m<---------Here is the doman rank\033[0m"
   sort /tmp/tt.1 | uniq -c | sort -rn | head -5
}
IP
URL
rm -f /tmp/tt.1

##总结：在书写shell脚本的时候，一定要先思考命令的用法，在明确命令的书写格式和用法时先写那些容易出错的地方，避免书写错误。其他的需要注意的方面，比如，if语句最后的fi, if 右面紧跟的then , 循环体后的done ,最后删除缓存文件，case语句没条结束时的；；最后的*)而不是‘*’) ，还有最后的esac等等