最近数据分析团队需要获得tomcat的访问日志做数据分析,小博主也是其中一名酱油队员。项目完成后,小博主将整个过程优化为以下几个步骤(无数据需求分析、数据筛选归类整理、可视化界面显示,和UI过程):
注意:本文主要分析整个过程的构思,让项目小白知道,一个项目大致需要哪些步骤
1:简单的数据筛选
2:数据清洗
3:数据库存储
4:实现全自动化过程
一:数据筛选
一般情况下的tomcat服务都是放在Linux服务器下,所以本文也就以Linux服务器简单讲解。
***@***:/home/suitang/tomcat/logs# pwd
/home/suitang/tomcat/logs
***@***:/home/suitang/tomcat/logs# ls
...
catalina.2019-06-08.log localhost.2019-06-17.log
catalina.2019-06-09.log localhost.2019-06-18.log
catalina.2019-06-10.log localhost.2019-06-19.log
...
localhost.2019-06-07.log localhost_access_log.2019-06-18.txt
localhost.2019-06-08.log localhost_access_log.2019-06-19.txt
localhost.2019-06-09.log manager.2019-06-06.log
localhost.2019-06-10.log wechatlog.txt
在tomcat的日志文件下,我们以6月14号的访问为例:
筛选含有essuport并且含有CCCCltd的数据
cat localhost_access_log.2019-06-14.txt |grep essupport |grep CCCCltd
筛选的文件有
...省略部分...
192.168.1.253 - - [14/Jun/2019:16:58:11 +0800] "POST /essupport/CCCCltdAction?method=query_bool2 HTTP/1.0" 200 9315
192.168.1.253 - - [14/Jun/2019:16:59:53 +0800] "POST /essupport/CCCCltdAction?method=query_bool6 HTTP/1.0" 200 11191
192.168.1.253 - - [14/Jun/2019:16:59:55 +0800] "POST /essupport/CCCCltdAction?method=query_bool2 HTTP/1.0" 200 12002
192.168.1.253 - - [14/Jun/2019:16:59:55 +0800] "POST /essupport/CCCCltdAction?method=query_bool2 HTTP/1.0" 200 9316
192.168.1.253 - - [14/Jun/2019:17:15:45 +0800] "POST /essupport/CCCCltdAction?method=query_bool2 HTTP/1.0" 200 10458
...省略部分...
本次的分析团队主要需要的是【】中的文件(即时间)ÿ