我们都知道Apache是一个性能非常优秀的web服务器,它能够稳定的工作,对各种插件支持的也非

常优秀。所以很多公司都选择使用Apache来搭建web服务器,从web服务器的使用量上看,Apache的市

场份额一直是居高不下。

205029481.jpg图片来自http://news.netcraft.com/archives/category/web-server-survey/


   在日常工作中,我们不仅要保证网站的稳定运行,而且还需要统计网站的访问量和分析报表。了解和监控网站的运行状态,对于提高网站的服务能力和服务水平似乎必不可少的。通过对web服务器的日志文件进行分析和统计,能够有效的掌握系统运行的情况及站点内容的被访问情况,加强对整个站及其内容的维护与管理;管理web网站需要监视其速度、web内容传送,服务器每天的吞吐量,和web网站的外来访问,了解网站各个页面的访问情况,根据页面的点击率来改善网页的内容和质量,提高内容的可读性。

1、Apache日志分类

   Apache规定了4类日志,分别是:错误日志、访问日志、传输日志、Cookie日志。其中Apache2.0

默认设置的有错误日志和访问日志,如果需要分析其他日志,需要进行相关的配置。

   错误日志(/etc/httpd/log/access_log,log是一个链接文件)           /*源码安装

   记录服务器运行期间的各种错误和一些服务器何时启动等信息。在这个文件中,管理员可以准

确、清晰地看到各种错误提示:文件没有找到、用户认证错误或者PHP、CGI的语法错误等。通过这些

准确的错误描述,管理员就可以较为顺利的解决问题了。

   访问日志(/etc/httpd/log/access_log)

   通过Apache的访问日志可以了解到访问服务器的相关信息,比如,有哪些人访问了服务器,都访

问了哪些内容等相关信息。Apache服务器一旦启动就会自动生成访问日志(/var/log/httpd/access_log)文件。

212021323.jpg

   记录的大致由这几个部分组成:来源主机,浏览者标识,认证用户,访问时间,以何种方式访问

哪个内容,引用的网址(从哪个页面跳转过来的),以及浏览器的类型和操作系统的属性等。访问日

日志的文件位置实际就是一个配置选项。如果用户检查httpd.conf配置文件,可以看到该文件中有这

行内容

   CustomLog logs/access_log common  //指定了Apache访问日志保存的绝对路径和格式,因为  

                                       Apache服务器会自动配置访问日志,所以该选项主要用        

                                       于为每个虚拟主机指定不同访问日志。

2、日志统计分析

   通过对日志文件的分析,可以统计网站的访问量,从侧面反应出哪些网站最受欢迎,同时也可以

获取客户端的相关信息:浏览者的来源、使用何种浏览器等。

   目前支持Apache日志统计分析的软件众多。webalizer是Red Hat Enterprise Linux5内置的日志

统计分析软件。如果需要通过Apache进行远程访问,则还要进行如下配置(Webalizer配置文件

为:/etc/webalizer.conf   源码安装)

   ①、使用vi命令编辑webalizer配置文件。在该文件中确保如下几行(Red Hat Enterprise

Linux5中的webalizer的默认配置):

   LogFile   /var/log/httpd/access_log    指定Apache访问记录文件所在位置

   OutputDir  /var/www/usage              

   ②、为Apache创建一个虚拟目录,使客户端能快速访问。编辑Apache配置文件/etc/httpd/conf/httpd.conf,找到Alias  /icons/xxxxx语句,在后面添加内容:

    Alias /webalizer   "/var/www/usage"       //确保有这个目录

   <Directory />

   Options FollowSymLinks

   AllowOverride all

   order  deny,allow

   Allow from all

   </Directory>

   ③、在/var/www/usage目录下创建一个文件.htaccess

   AuthName    “Test  Zone”

   AuthType     Basic

   AuthUserFile    /usr/local/apache/passwd/.htpasswd

   require   valid-user

   ④、关于创建认证用户,在上一篇文章中写到过,请参考。如果只是练习,可以不用要验证这一步。

   ⑤、执行命令webalizer

   ⑥、重启Apache

   ⑦、在客户端访问http://IP/webalizer/,输入授权的帐号和密码,成功后,结果如图所示:

125609585.jpg

   日志文件的压缩和备份

   网站日志文件是以文本格式存在,如果服务器有大量的用户,则日志文件会非常庞大,会占用大

量的磁盘空间。因此须才却相应措施来防止日志文件将磁盘空间占满。Red Hat Enterprise Linux5

供了这样一个logrotate小程序让用户来备份管理日志,rpm安装的时候,自动会安装这个工具。此时

需要稍微调整,就可以达到减少磁盘空间占用的目的。打开Apache日志备份配置文

/etc/logrotate.d/httpd/,并修改。通过简单设置后,Apache日志占用磁盘空间的问题将会得到很

大的缓解。

125732310.png

实用的日志分析脚本
了解日志的各种定义后,这里分享一下从网上淘来的一些对日志分析的脚本

来自http://www.blogjava.net/dongbule/archive/2010/12/10/340288.html

1.查看apache的进程数
ps -aux | grep httpd | wc -l

2.分析日志查看当天的ip连接数
cat default-access_log | grep "10/Dec/2010" | awk '{print $2}' | sort | uniq -c | sort -nr

3.查看指定的ip在当天究竟访问了什么url
cat default-access_log | grep "10/Dec/2010" | grep "218.19.140.242" | awk '{print $7}' | sort | uniq -c | sort -nr

4.查看当天访问排行前10的url
cat default-access_log | grep "10/Dec/2010" | awk '{print $7}' | sort | uniq -c | sort -nr | head -n 10

5.看到指定的ip究竟干了什么
cat default-access_log | grep 218.19.140.242 | awk '{print $1"\t"$8}' | sort | uniq -c | sort -nr | less

6.查看访问次数最多的几个分钟(找到热点)
awk '{print $4}' default-access_log |cut -c 14-18|sort|uniq -c|sort -nr|head