web服务:tomcat访问日志分析存储

本文介绍了如何从Tomcat访问日志中筛选、清洗数据,并将其存储到数据库,最后通过自动化脚本实现全自动化过程。首先,通过Linux命令筛选日志,接着清洗数据,将时间转换为时间戳,去除请求方式中的双引号。然后,使用Python将清洗后的数据存储到数据库。最后,通过shell脚本和crontab实现自动化。
摘要由CSDN通过智能技术生成

最近数据分析团队需要获得tomcat的访问日志做数据分析,小博主也是其中一名酱油队员。项目完成后,小博主将整个过程优化为以下几个步骤(无数据需求分析、数据筛选归类整理、可视化界面显示,和UI过程):

注意:本文主要分析整个过程的构思,让项目小白知道,一个项目大致需要哪些步骤

1:简单的数据筛选

2:数据清洗

3:数据库存储

4:实现全自动化过程

一:数据筛选

一般情况下的tomcat服务都是放在Linux服务器下,所以本文也就以Linux服务器简单讲解。

***@***:/home/suitang/tomcat/logs# pwd
/home/suitang/tomcat/logs
***@***:/home/suitang/tomcat/logs# ls
...
catalina.2019-06-08.log      localhost.2019-06-17.log
catalina.2019-06-09.log      localhost.2019-06-18.log
catalina.2019-06-10.log      localhost.2019-06-19.log
...
localhost.2019-06-07.log     localhost_access_log.2019-06-18.txt
localhost.2019-06-08.log     localhost_access_log.2019-06-19.txt
localhost.2019-06-09.log     manager.2019-06-06.log
localhost.2019-06-10.log     wechatlog.txt

在tomcat的日志文件下,我们以6月14号的访问为例:

筛选含有essuport并且含有CCCCltd的数据

cat localhost_access_log.2019-06-14.txt |grep essupport |grep CCCCltd

筛选的文件有

...省略部分...
192.168.1.253 - - [14/Jun/2019:16:58:11 +0800] "POST /essupport/CCCCltdAction?method=query_bool2 HTTP/1.0" 200 9315
192.168.1.253 - - [14/Jun/2019:16:59:53 +0800] "POST /essupport/CCCCltdAction?method=query_bool6 HTTP/1.0" 200 11191
192.168.1.253 - - [14/Jun/2019:16:59:55 +0800] "POST /essupport/CCCCltdAction?method=query_bool2 HTTP/1.0" 200 12002
192.168.1.253 - - [14/Jun/2019:16:59:55 +0800] "POST /essupport/CCCCltdAction?method=query_bool2 HTTP/1.0" 200 9316
192.168.1.253 - - [14/Jun/2019:17:15:45 +0800] "POST /essupport/CCCCltdAction?method=query_bool2 HTTP/1.0" 200 10458
...省略部分...

本次的分析团队主要需要的是【】中的文件(即时间)ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值