日志分析总结
最近在做日志分析的工作,特此总结一下日志分析相关的原则和方法,详见下表所示:
日志分析 | 日志入库 | 执行时间 (s) | 统计结果 | |
表的数量 | 入库方式 | |||
单进程 | 不建表 | 不入库 | 216.5 | IP : 30145 UID : 33200 PV : 44071 |
单表 | 单条 | 69.5 | IP : 30145 UID : 33200 PV : 44071 | |
单表 | 批量 | 1.8 | IP : 30145 UID : 33200 PV : 44071 | |
单表 | load data infile | 1.7 | IP : 30145 UID : 33200 PV : 44071 | |
多进程 (5个进程) | 单表 | load data infile | 0.3 | IP : 30145 UID : 33200 PV : 44071 |
多表(分表) | 单条 | 23.5 | IP : 30145 PV : 44071 | |
多表(分表) | 批量 | 0.5 | IP : 30145 PV : 44071 | |
多表(分表) | 批量 | 0.5 | UID : 33200 PV : 44071 |
根据上表分析可知:
1、日志分析:推荐采用并行多进程的处理方式。
2、日志入库:大数据时,推荐采用分表的方式,入库方式建议采用批量 或 load data infile 的方式。