我们对apache访问日志进行一个解读,
220.181.108.92  -  -  [21/Sep/2015:12:59:59 +0800]  "GET /min/f=/media/js/jquery-1.7.2.media/js/global_interaction.js&201308221836 HTTP/1.1"  200  70550  "http://adfdfs.com.cn1071-2130-1.html"   "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9) Gecko Minefield/3.0"
 第一项信息是远程主机的地址,即它表明访问网站的究竟是谁。
 第二项是空白,用一个“-”占位符替代。实际上绝大多数时候这一项都是如此。这个位置用于记录浏览者的标识,这不只是浏览者的登录名字,而是浏览者的email地址或者其他唯一标识符,通常只是"-";
 第三项也是空白用一个占位符"-"来替代。这个位置用于记录浏览者进行身份验证时提供的名字。当然,如果网站的某些内容要求用户进行身份验证,那么这项信息是不会空白的。但是,对于大多数网站来说,日志文件的大多数记录中这一项仍旧是空白的。
 第四项,表示访问者的访问时间记录,无需多解释,时间信息最后的“+800”表示服务器所处时区位于UTC之后的8小时。
 第五项,是整个日志记录中最有用的信息,它告诉我们服务器收到的是一个什么样的请求
 第六项,200状态代码,也会有404等等
 第七项,70500,是服务器发送给客户端的总字节数
 第八项,客户在提出请求时所在的目录或URL。
 第九项,客户端的详细信息
 
根据需求可以建张表
CREATE TABLE IF NOT EXISTS `apache_log` (
  `id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'id号',
  `hostip` char(32) NOT NULL  DEFAULT '0.0.0.0' COMMENT '远程主机的IP地址',
  `marking` char(10)  COMMENT '浏览者的标识',
  `client_name` char(10)  COMMENT '浏览者的名字',
  `addtime` char(44) NOT NULL COMMENT '浏览时间',
  `time_zone` char(8) NOT NULL COMMENT '时区',
  `method` char(8)  NOT NULL COMMENT '方法',
  `resource` char(84)  NOT NULL COMMENT ' 请求的资源',
  `protocol` char(8)  COMMENT '请求使用的协议',
  `status` int(4)  COMMENT '状态代码',
  `bytes` int(6)  COMMENT '发送给客户端的总字节数',
  `refer` char(128)  COMMENT '客户在提出请求时所在的目录或URL',  
  `client_info` char(128)  COMMENT '客户在提出请求时所在的目录或URL',
  PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
 
      先用awk处理apache日志,将每一项都用空格分开,那么大家看到下面的好多数字就迷惑了,这到底是个什么东西呢。首先awk '{print 0 ,像apache日志的文本中每行写入一个0,原因是,表结构的第一个字段是自增列,我只要把0导入,0表示默认值,它就可以自动增长了。
cat  access_log20150917.log| awk '{ {printf 0 " "$1 " "$2 " "$3 " "$4 " "$5 " "$6 " "$7 " "$8 " "$9 " "$10 " "$11 " "} for (i=12;i<=NF;i++) printf $i;printf "\n"}' > apache_log.txt

 ----这个awk,我算是搞了一两天,问高手,然后自己修改测试,才弄出来,因为原帖的人,应该是有所保留,给出的命令不能执行。真是不敢恭维国内的技术人员,写的文档有问题,还发表出来。其次就是百度的时候看见很多文章,但是点进去之后,确实一样的,都是复制粘贴。
如果朋友对这个命令有问题,可以和我相互学习一下,因为我本人也不熟悉。
mysql> load data local  infile "/root/log/apache_log.txt" into table apache_log fields terminated by " " lines terminated by '\n';

load data 导入数据,这个很简单,基本上看一下介绍就知道了。
现在查看表数据


接下来就是SQL语句了。

本文出自http://blog.itpub.net/27099995/viewspace-1805903/