![e7b026861ab5c1ed45698956a3b471ee.png](https://i-blog.csdnimg.cn/blog_migrate/fed04bc87ce1bff358967f12a447a71b.jpeg)
之前的文章介绍日志领域的研究方向时,曾经提到有些研究关注在日志的压缩方面,毕竟日志实在量太大了!日志易一个规模还可以的股份制银行客户,按照法律要求的存储时长计算磁盘大小,对应的硬件成本就是几千万。
但是这些研究大多有一个问题,那就是它们只考虑如何把日志的存储空间压缩到最小,却并不怎么考虑同时如何继续支撑已有的各种日志管理软件的读写方式——通常来说它们的做法都是自己设计一个索引或者模板提取方式,然后把日志转化过去。
那么,在通用的压缩算法基础上,日志领域还有什么可以研究和发挥的空间么?
前些天看到加拿大女王大学的一篇新论文,解答了这个问题。
A Study of the Performance of General Compressors on Log Filesusers.encs.concordia.ca论文主要调研了三个问题:
- 通用压缩算法,对普通的文章和对日志数据有什么效果区别?
- 不同的日志文件大小,对压缩效果有什么影响?
- 不同的压缩级别,对压缩效果有什么影响?
论文中主要取 ELK 和 Splunk 为最重要的背景参照。毫无疑问这是目前最主流的日志管理工具。文中介绍:“In addition, log management tools usually divide the input log data