背景
网站试运行一段时间了,客户说要在后台补一个日志访问量统计的功能,可视化显示,然后分析浏览量和访问量(好吧这的确是个必备的功能)。
流程介绍
- 为了不增加系统复杂性,不使用消息队列或ELK
- 使用Nginx配置指定格式的日志,发送到syslog服务器
- syslog服务器接收到日志,存储到MySQL数据库
- 后台定时任务从MySQL库中采集数据并解析,每五分钟跑一次
- 后台接口查询解析后的数据,分析浏览量和访问量
- 为了系统的安全性,Nginx所在服务器不能直接和数据库交互
具体实现
- 通过Nginx发送日志到rsyslog(这里日志文件会在rsyslog服务器落地),然后rsyslog将日志文件存入MySQL数据库,后台定时任务抽取数据并解析,解析后入库,并提供相关接口查询网站访问量、点击量。(和上面的流程介绍一致)
- 唯一遇到的问题是日志传输,也就是从Nginx到rsyslog的日志落地,调了一上午发现都不行,经过排查,确定了不是配置问题,而是网络的问题(之前护网,加了虚拟防火墙)。经过协调,开放了出入的UDP端口514后,问题解决。
- rsyslog到MySQL用rsyslog自带的MySQL组件就可以,需要先安装rsyslog-mysql的模块,因为是内网机,我这里用的是rpm安装的。
- 后台通过@Scheduled(cron = “xxx”)执行定时任务来抽取日志并解析,解析日志这里我用的是正则
// nginx日志分析规则
Pattern pattern1 = Pattern.compile("这里写正则");
Matcher matcher1 = pattern1.matcher(syslog.getMessage());
if(matcher1.find()){
log_soap.setIpaddr(matcher1.group(1));
log_soap.setPath(matcher1.group(2));
log_soap.setMethod(matcher1.group(3));
log_soap.setStatus(matcher1.group(4));
}else{
String BLANK = "";
log_soap.setIpaddr(BLANK);
log_soap.setPath(BLANK);
log_soap.setMethod(BLANK);
log_soap.setStatus(BLANK);
}`
- 后台编写日志统计组件并提供接口进行访问,这里没啥好说的
- 后面还会进行修改,需要考虑分库分表的问题